論文の概要: TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments
- arxiv url: http://arxiv.org/abs/2505.17629v2
- Date: Tue, 27 May 2025 07:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 12:08:55.068723
- Title: TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments
- Title(参考訳): TransBench: 動的デジタル環境における転送可能なグラフィカルユーザインタフェースエージェントの遮断障壁
- Authors: Yuheng Lu, Qian Yu, Hongru Wang, Zeming Liu, Wei Su, Yanping Liu, Yuhang Guo, Maocheng Liang, Yunhong Wang, Haifeng Wang,
- Abstract要約: 3つの重要な次元にわたるGUIエージェントの転送可能性の体系的評価と向上を目的とした最初のベンチマークであるTransBenchを紹介する。
TransBenchには、さまざまな機能を備えた15のアプリカテゴリが含まれており、堅牢な評価を可能にするため、バージョンやプラットフォームにまたがる不可欠なページをキャプチャする。
実験では,動的実環境におけるGUIエージェントの実用性を示すとともに,グラウンド化精度の大幅な向上を実証した。
- 参考スコア(独自算出の注目度): 47.35832608861582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agents, which autonomously operate on digital interfaces through natural language instructions, hold transformative potential for accessibility, automation, and user experience. A critical aspect of their functionality is grounding - the ability to map linguistic intents to visual and structural interface elements. However, existing GUI agents often struggle to adapt to the dynamic and interconnected nature of real-world digital environments, where tasks frequently span multiple platforms and applications while also being impacted by version updates. To address this, we introduce TransBench, the first benchmark designed to systematically evaluate and enhance the transferability of GUI agents across three key dimensions: cross-version transferability (adapting to version updates), cross-platform transferability (generalizing across platforms like iOS, Android, and Web), and cross-application transferability (handling tasks spanning functionally distinct apps). TransBench includes 15 app categories with diverse functionalities, capturing essential pages across versions and platforms to enable robust evaluation. Our experiments demonstrate significant improvements in grounding accuracy, showcasing the practical utility of GUI agents in dynamic, real-world environments. Our code and data will be publicly available at GitHub.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、自然言語命令を通じてデジタルインターフェース上で自律的に動作し、アクセシビリティ、自動化、ユーザエクスペリエンスの変換可能性を保持する。
言語意図を視覚的および構造的インターフェース要素にマッピングする機能である。
しかし、既存のGUIエージェントは、複数のプラットフォームやアプリケーションにまたがるタスクがバージョン更新の影響を受けながら、現実のデジタル環境の動的で相互に連携する性質に適応するのに苦労することが多い。
これに対処するため、TransBenchは、3つの主要な次元にわたるGUIエージェントの転送可能性(バージョン更新に対応する)、クロスプラットフォーム転送可能性(iOS、Android、Webなどのプラットフォームにまたがる一般化)、アプリケーション間転送可能性(機能的に異なるアプリにまたがる処理)を体系的に評価し、拡張するように設計された最初のベンチマークである。
TransBenchには、さまざまな機能を備えた15のアプリカテゴリが含まれており、堅牢な評価を可能にするため、バージョンやプラットフォームにまたがる不可欠なページをキャプチャする。
実験では,動的実環境におけるGUIエージェントの実用性を示すとともに,グラウンド化精度の大幅な向上を実証した。
コードとデータはGitHubで公開されます。
関連論文リスト
- GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration [22.814882629516635]
GUI-Xploreは、クロスアプリケーションとクロスタスクの一般化を強化するために細心の注意を払って設計されたデータセットである。
GUI-Xploreのユニークな機能をフル活用するために,Action-aware GUI ModelingとGraph-Guided Environment Reasoningを組み合わせたGUIエージェントフレームワークであるXplore-Agentを提案する。
論文 参考訳(メタデータ) (2025-03-22T09:30:37Z) - GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。
GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文 参考訳(メタデータ) (2024-12-18T04:48:28Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に認識し,GUI上でピクセルレベルの操作を直接実行する,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。