論文の概要: Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis
- arxiv url: http://arxiv.org/abs/2505.13227v1
- Date: Mon, 19 May 2025 15:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.686541
- Title: Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis
- Title(参考訳): ユーザインタフェース分解と合成によるコンピュータ利用グラウンドのスケーリング
- Authors: Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong,
- Abstract要約: グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
- 参考スコア(独自算出の注目度): 59.83524388782554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical user interface (GUI) grounding, the ability to map natural language instructions to specific actions on graphical user interfaces, remains a critical bottleneck in computer use agent development. Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities. To address these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising 564 finely annotated samples across diverse task types including text matching, element recognition, layout understanding, and precise manipulation. Additionally, we synthesize and release the largest computer use grounding dataset Jedi, which contains 4 million examples through multi-perspective decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its effectiveness by outperforming existing approaches on ScreenSpot-v2, ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved grounding with Jedi directly enhances agentic capabilities of general foundation models on complex computer tasks, improving from 5% to 27% on OSWorld. Through detailed ablation studies, we identify key factors contributing to grounding performance and verify that combining specialized data for different interface elements enables compositional generalization to novel interfaces. All benchmark, data, checkpoints, and code are open-sourced and available at https://osworld-grounding.github.io.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)グラウンドング(英語版)は、自然言語命令をグラフィカルユーザインタフェース上の特定のアクションにマッピングする機能であり、コンピュータ利用エージェント開発において重要なボトルネックとなっている。
現在のベンチマークでは、ソフトウェアコモンセンス、レイアウトの理解、きめ細かい操作機能を必要とする現実世界のインタラクションの複雑さを捉えることができず、短い参照表現として基底タスクを単純化している。
これらの制約に対処するために,テキストマッチング,要素認識,レイアウト理解,正確な操作など,さまざまなタスクタイプにまたがる564個の注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを導入する。
さらに,タスクのマルチパースペクティブデカップリングによって400万のサンプルを含む,最大のコンピュータ利用基盤データセットであるJediを合成・リリースする。
Jediでトレーニングしたマルチスケールモデルでは,ScreenSpot-v2やScreenSpot-Pro,OSWorld-Gなど,既存のアプローチよりも優れています。
さらに,Jediによるグラウンド化の改善は,OSWorldの5%から27%に向上し,複雑なコンピュータタスクにおける一般基盤モデルのエージェント能力を直接的に向上させることを示した。
詳細なアブレーション研究を通じて、基礎性能に寄与する重要な要因を特定し、異なるインターフェース要素に対する特別なデータを組み合わせることで、新しいインターフェースへの合成一般化が可能になることを検証した。
すべてのベンチマーク、データ、チェックポイント、コードはオープンソースで、https://osworld-grounding.github.ioで公開されている。
関連論文リスト
- UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis [15.429065788185522]
様々な複雑な命令データセットを生成するために,大規模なデータ合成パイプライン UI-E2I- Synth を導入する。
既存のベンチマークの限界に対処する新しいGUI命令基底ベンチマークであるUI-I2E-Benchを提案する。
合成データに基づいて学習した本モデルは,GUI命令のグラウンドリングにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-15T14:56:21Z) - UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction [16.731754927372585]
UI-Visionは、コンピュータ使用エージェントのオフラインかつきめ細かい評価のための、最初の包括的なライセンス許容ベンチマークである。
オンラインベンチマークとは異なり、UI-Visionは人間のデモの密集した高品質なアノテーションを提供する。
評価の結果,UI-TARS-72Bのような最先端モデルの限界が明らかになった。
論文 参考訳(メタデータ) (2025-03-19T19:26:17Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。
textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。
textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文 参考訳(メタデータ) (2024-08-01T00:00:43Z) - ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills [24.150758623016195]
我々は、一般化可能な操作スキルのための次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を紹介する。
ManiSkill2には、2000以上のオブジェクトモデルと4M以上のデモフレームを備えた20の操作タスクファミリが含まれている。
幅広いアルゴリズムをサポートする統一インターフェースと評価プロトコルを定義する。
高速な視覚入力学習アルゴリズムにより、CNNベースのポリシーでサンプルを約2000 FPSで収集することができる。
論文 参考訳(メタデータ) (2023-02-09T14:24:01Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。