論文の概要: Grounding Computer Use Agents on Human Demonstrations
- arxiv url: http://arxiv.org/abs/2511.07332v1
- Date: Mon, 10 Nov 2025 17:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.399255
- Title: Grounding Computer Use Agents on Human Demonstrations
- Title(参考訳): 人体デモにおける接地型コンピュータ利用エージェント
- Authors: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar,
- Abstract要約: GroundCUAは、専門家による人間のデモから構築された大規模なデスクトップグラウンドデータセットである。
12のカテゴリにわたる87のアプリケーションをカバーし、56Kのスクリーンショットを含む。
GroundCUAを用いて、ターゲットUI要素に命令をマッピングするモデルのFundNextファミリを開発する。
- 参考スコア(独自算出の注目度): 40.66362945241247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building reliable computer-use agents requires grounding: accurately connecting natural language instructions to the correct on-screen elements. While large datasets exist for web and mobile interactions, high-quality resources for desktop environments are limited. To address this gap, we introduce GroundCUA, a large-scale desktop grounding dataset built from expert human demonstrations. It covers 87 applications across 12 categories and includes 56K screenshots, with every on-screen element carefully annotated for a total of over 3.56M human-verified annotations. From these demonstrations, we generate diverse instructions that capture a wide range of real-world tasks, providing high-quality data for model training. Using GroundCUA, we develop the GroundNext family of models that map instructions to their target UI elements. At both 3B and 7B scales, GroundNext achieves state-of-the-art results across five benchmarks using supervised fine-tuning, while requiring less than one-tenth the training data of prior work. Reinforcement learning post-training further improves performance, and when evaluated in an agentic setting on the OSWorld benchmark using o3 as planner, GroundNext attains comparable or superior results to models trained with substantially more data,. These results demonstrate the critical role of high-quality, expert-driven datasets in advancing general-purpose computer-use agents.
- Abstract(参考訳): 信頼性の高いコンピュータ利用エージェントの構築には、自然言語命令を正確なオンスクリーン要素に正確に接続することが必要である。
Webとモバイルのインタラクションには大規模なデータセットが存在するが、デスクトップ環境には高品質なリソースが限られている。
このギャップに対処するために、専門家による人間のデモンストレーションから構築された大規模デスクトップグラウンドディングデータセットであるGroundCUAを紹介した。
12のカテゴリにわたる87のアプリケーションをカバーし、56Kのスクリーンショットを含む。
これらの実演から,多種多様な実世界のタスクをキャプチャし,モデルトレーニングのための高品質なデータを提供する多様な指示を生成する。
GroundCUAを用いて、ターゲットUI要素に命令をマッピングするモデルのFundNextファミリを開発する。
GroundNextは3Bと7Bの両方のスケールで、教師付き微調整を使用して5つのベンチマークで最先端の結果を達成する。
強化学習後のトレーニングによりパフォーマンスがさらに向上し、OSWorldベンチマークのエージェント設定でo3をプランナとして評価すると、かなり多くのデータでトレーニングされたモデルに対して、より優れた結果が得られる。
これらの結果は、汎用コンピュータ利用エージェントの進歩において、高品質で専門家主導のデータセットが重要な役割を担っていることを示す。
関連論文リスト
- Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels [30.722073025794025]
テキストインストラクションに基づくグラウンドリングにおける5つの重要な現実的課題に対処する。
提案手法は,既存の画素レベルのアノテーションに関連付けられた高品質な命令応答ペアを生成する。
実験結果から, グラウンド-Vで訓練したモデルでは, 多様なグラウンドタスクにまたがる大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-05-20T00:37:19Z) - Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [57.371814877372515]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。