論文の概要: Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
- arxiv url: http://arxiv.org/abs/2504.10127v2
- Date: Tue, 15 Apr 2025 17:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:26.370624
- Title: Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
- Title(参考訳): データバリアを破る - タスクの一般化によるGUIエージェントの構築
- Authors: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He,
- Abstract要約: 本研究では,データ豊かで推論集約的なタスクにおける視覚言語モデル(VLM)のトレーニングを提案する。
本稿では,GUI認識,マルチモーダル推論,テキスト推論など,手軽に利用できるインストラクションチューニングデータを用いて,さまざまなタスクを探索する。
われわれの研究はGUIエージェントのドメイン間知識伝達に関する貴重な知見を提供し、データの不足に対処するための実践的なアプローチを提供する。
- 参考スコア(独自算出の注目度): 25.129269032612832
- License:
- Abstract: Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data - previously considered closely aligned with GUI agent tasks and widely utilized for training - has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.
- Abstract(参考訳): Graphical User Interface (GUI)エージェントは、複雑なデジタルタスクを自動化するクロスプラットフォームソリューションを提供する。
しかし、それらの性能は、高品質な軌道データの不足によって制約されることが多い。
この制限に対処するために,本研究では,データ豊かで推論集約的なタスクに対して,視覚言語モデル(VLM)を訓練し,これらのタスクを組み込むことによってGUI計画シナリオへの一般化が促進されるかを検討する。
具体的には、GUI認識、マルチモーダル推論、テキスト推論など、手軽に利用できる命令チューニングデータを用いて、様々なタスクを探索する。
1)タスクの一般化は非常に効果的であることが証明され、ほとんどの設定で大幅な改善が得られます。
例えば、マルチモーダルな数学的推論はAndroidWorldのパフォーマンスを6.3%向上させる。
テキストのみの数学的データは、GUI Webエージェントのパフォーマンスを著しく向上させ、WebArenaを5.6%改善し、AndroidWorldを5.4%改善し、テキストベースからビジュアルドメインへの顕著なクロスモーダルな一般化を裏付けている。
我々の研究はGUIエージェントのドメイン間知識伝達に関する貴重な知見を提供し、この新興分野におけるデータ不足問題に対処するための実践的なアプローチを提供する。
コード、データ、モデルはhttps://github.com/hkust-nlp/GUIMid.comで入手できる。
関連論文リスト
- UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data [14.328402787379538]
本稿では,自然言語インタラクションによる知識管理プラットフォームである AgentiGraph (タスクベースインタラクションとグラフィカル表現のための適応生成ENgine) を紹介する。
AgentiGraphはマルチエージェントアーキテクチャを使用して、ユーザの意図を動的に解釈し、タスクを管理し、新しい知識を統合する。
3,500のテストケースのデータセットの実験結果から、AgentiGraphは最先端のゼロショットベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-15T12:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。