Fugu-MT 論文翻訳(概要): TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments

論文の概要: TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments

arxiv url: http://arxiv.org/abs/2505.17629v2
Date: Tue, 27 May 2025 07:41:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 12:08:55.068723
Title: TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments
Title（参考訳）: TransBench: 動的デジタル環境における転送可能なグラフィカルユーザインタフェースエージェントの遮断障壁
Authors: Yuheng Lu, Qian Yu, Hongru Wang, Zeming Liu, Wei Su, Yanping Liu, Yuhang Guo, Maocheng Liang, Yunhong Wang, Haifeng Wang,
Abstract要約: 3つの重要な次元にわたるGUIエージェントの転送可能性の体系的評価と向上を目的とした最初のベンチマークであるTransBenchを紹介する。 TransBenchには、さまざまな機能を備えた15のアプリカテゴリが含まれており、堅牢な評価を可能にするため、バージョンやプラットフォームにまたがる不可欠なページをキャプチャする。実験では,動的実環境におけるGUIエージェントの実用性を示すとともに,グラウンド化精度の大幅な向上を実証した。
参考スコア（独自算出の注目度）: 47.35832608861582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graphical User Interface (GUI) agents, which autonomously operate on digital interfaces through natural language instructions, hold transformative potential for accessibility, automation, and user experience. A critical aspect of their functionality is grounding - the ability to map linguistic intents to visual and structural interface elements. However, existing GUI agents often struggle to adapt to the dynamic and interconnected nature of real-world digital environments, where tasks frequently span multiple platforms and applications while also being impacted by version updates. To address this, we introduce TransBench, the first benchmark designed to systematically evaluate and enhance the transferability of GUI agents across three key dimensions: cross-version transferability (adapting to version updates), cross-platform transferability (generalizing across platforms like iOS, Android, and Web), and cross-application transferability (handling tasks spanning functionally distinct apps). TransBench includes 15 app categories with diverse functionalities, capturing essential pages across versions and platforms to enable robust evaluation. Our experiments demonstrate significant improvements in grounding accuracy, showcasing the practical utility of GUI agents in dynamic, real-world environments. Our code and data will be publicly available at GitHub.
Abstract（参考訳）: グラフィカルユーザインタフェース(GUI)エージェントは、自然言語命令を通じてデジタルインターフェース上で自律的に動作し、アクセシビリティ、自動化、ユーザエクスペリエンスの変換可能性を保持する。言語意図を視覚的および構造的インターフェース要素にマッピングする機能である。しかし、既存のGUIエージェントは、複数のプラットフォームやアプリケーションにまたがるタスクがバージョン更新の影響を受けながら、現実のデジタル環境の動的で相互に連携する性質に適応するのに苦労することが多い。これに対処するため、TransBenchは、3つの主要な次元にわたるGUIエージェントの転送可能性(バージョン更新に対応する)、クロスプラットフォーム転送可能性(iOS、Android、Webなどのプラットフォームにまたがる一般化)、アプリケーション間転送可能性(機能的に異なるアプリにまたがる処理)を体系的に評価し、拡張するように設計された最初のベンチマークである。 TransBenchには、さまざまな機能を備えた15のアプリカテゴリが含まれており、堅牢な評価を可能にするため、バージョンやプラットフォームにまたがる不可欠なページをキャプチャする。実験では,動的実環境におけるGUIエージェントの実用性を示すとともに,グラウンド化精度の大幅な向上を実証した。コードとデータはGitHubで公開されます。

関連論文リスト

Computer-Use Agents as Judges for Generative User Interface [142.75272102498806]
ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。ほとんどのGUIは、人間が効率的にタスクを実行するのに不要な人間指向の動作を採用するために設計されている。 CUA は Coder でGUI の自動設計を支援することができるだろうか?
論文参考訳（メタデータ） (2025-11-19T16:00:02Z)
GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning [11.909652592163896]
GUI-ReWalkは、現実的で多様なGUIトラジェクトリを合成するための多段階フレームワークである。 GUI-ReWalkは、ランダム性と構造に対するゴール認識推論を組み合わせることで、人間のコンピュータインタラクションの意図認識、適応性をよりよく反映したデータを生成する。その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
論文参考訳（メタデータ） (2025-09-19T08:09:18Z)
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。 GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文参考訳（メタデータ） (2025-07-25T17:59:26Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration [22.814882629516635]
GUI-Xploreは、クロスアプリケーションとクロスタスクの一般化を強化するために細心の注意を払って設計されたデータセットである。 GUI-Xploreのユニークな機能をフル活用するために,Action-aware GUI ModelingとGraph-Guided Environment Reasoningを組み合わせたGUIエージェントフレームワークであるXplore-Agentを提案する。
論文参考訳（メタデータ） (2025-03-22T09:30:37Z)
GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文参考訳（メタデータ） (2024-12-18T04:48:28Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文参考訳（メタデータ） (2024-12-02T08:35:31Z)
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に認識し,GUI上でピクセルレベルの操作を直接実行する,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文参考訳（メタデータ） (2024-10-07T17:47:50Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文参考訳（メタデータ） (2023-05-14T12:31:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。