論文の概要: ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
- arxiv url: http://arxiv.org/abs/2605.12481v1
- Date: Tue, 12 May 2026 17:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.076388
- Title: ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents
- Title(参考訳): ToolCUA: コンピュータ利用エージェントのための最適GUIツールパスオーケストレーションを目指して
- Authors: Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye,
- Abstract要約: Computer Use Agents (CUA) は、クリックやタイプのようなアトミックGUIアクションと、APIベースのファイル操作のようなハイレベルなツールコールの両方を通じて動作することができる。
この困難は、高品質なインターリーブGUIツール軌跡の不足、実際のツール軌跡収集のコストと脆さ、GUIツールパス選択のための軌道レベルの監督の欠如に起因する。
本稿では,GUI-Tool経路選択を段階的学習パラダイムを用いて学習するためのエンドツーエンドエージェントであるToolCUAを提案する。
- 参考スコア(独自算出の注目度): 87.63969994744133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer Use Agents (CUAs) can act through both atomic GUI actions, such as click and type, and high-level tool calls, such as API-based file operations, but this hybrid action space often leaves them uncertain about when to continue with GUI actions or switch to tools, leading to suboptimal execution paths. This difficulty stems from the scarcity of high-quality interleaved GUI-Tool trajectories, the cost and brittleness of collecting real tool trajectories, and the lack of trajectory-level supervision for GUI-Tool path selection. In this paper, we propose ToolCUA, an end-to-end agent designed to learn optimal GUI-Tool path selection through a staged training paradigm. We first introduce an Interleaved GUI-Tool Trajectory Scaling Pipeline that repurposes abundant static GUI trajectories and synthesizes a grounded tool library, enabling diverse GUI-Tool trajectories without manual engineering or real tool-trajectory collection. We then perform Tool-Bootstrapped GUI RFT, combining warmup SFT with single-turn RL to improve decisions at critical GUI-Tool switching points. Finally, we optimize ToolCUA with Online Agentic RL in a high-fidelity GUI-Tool environment, guided by a Tool-Efficient Path Reward that encourages appropriate tool use and shorter execution paths. Experiments on OSWorld-MCP show that ToolCUA achieves 46.85% accuracy, a relative improvement of approximately 66% over the baseline, establishing a new state of the art among models of comparable scale. It also improves by 3.9% over GUI-only settings, demonstrating effective GUI-Tool orchestration. The results further suggest that training in a hybrid action space is a promising paradigm for real-world digital agents. Open-sourced here: https://x-plug.github.io/ToolCUA/
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は、クリックやタイプのようなアトミックなGUIアクションと、APIベースのファイル操作のようなハイレベルなツールコールの両方を通じて動作することができるが、このハイブリッドなアクション空間は、GUIアクションをいつ継続するか、あるいはツールに切り替えるかについて不確実なままにして、最適な実行パスに繋がることが多い。
この困難は、高品質なインターリーブGUIツール軌跡の不足、実際のツール軌跡収集のコストと脆さ、GUIツールパス選択のための軌道レベルの監督の欠如に起因する。
本稿では,GUI-Tool経路選択を段階的学習パラダイムを用いて学習するためのエンドツーエンドエージェントであるToolCUAを提案する。
最初にInterleaved GUI-Tool Trajectory Scaling Pipelineを導入し、豊富な静的GUIトラジェクトリを再利用し、基盤となるツールライブラリを合成し、手動のエンジニアリングや実際のツールトラジェクトリコレクションなしで多様なGUI-Toolトラジェクトリを可能にする。
次にツールブートストラップGUI RFTを実行し、ウォームアップSFTとシングルターンRLを組み合わせることで、重要なGUIツールスイッチングポイントでの意思決定を改善する。
最後に,ToolCUA と Online Agentic RL を高忠実な GUI-Tool 環境で最適化し,Tool-Efficient Path Reward でガイドし,適切なツールの使用と実行経路の短縮を促進させる。
OSWorld-MCPの実験によると、ToolCUAは46.85%の精度でベースラインを約66%上回った。
GUIのみの設定よりも3.9%改善され、GUIツールの効果的なオーケストレーションが実証された。
さらに、ハイブリッドアクション空間でのトレーニングは、現実世界のデジタルエージェントにとって有望なパラダイムであることを示唆している。
https://x-plug.github.io/ToolCUA/
関連論文リスト
- UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization [70.85564601986263]
実験の結果, UI-Copilot-7BはMemGUI-Benchに挑戦する上で最先端の性能を発揮することがわかった。
UI-Copilot-7BはAndroidWorldのQwenベースモデルに対して17.1%の絶対的な改善を提供する。
論文 参考訳(メタデータ) (2026-04-15T12:55:46Z) - Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use [21.666294374943178]
トレースリッチな設定からトレースフリーなデプロイメントへ監督を移行するカリキュラム学習フレームワークを提案する。
実験では、予期せぬツール、強力なクロスドメインの一般化、そして、候補ツールの数が100を超えるほど堅牢性に一貫した向上が示されている。
論文 参考訳(メタデータ) (2026-02-23T23:50:24Z) - ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents [16.06309106596998]
ToolTokはGUIエージェントのための多段階パスフィニングの新しいパラダイムである。
我々は,人間のインタラクションの習慣に沿ったツールを考案し,学習可能なトークン埋め込みを用いて各ツールを表現する。
トークン定義質問回答,純テキスト誘導ツールの選択,視覚的パスフィニングの3つのタスクからなる,難易度の高いカリキュラムを構築した。
論文 参考訳(メタデータ) (2026-01-30T08:38:05Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - GUI-Shift: Enhancing VLM-Based GUI Agents through Self-supervised Reinforcement Learning [21.964100514016504]
GUIエージェントのための効果的なビジョンランゲージモデル(VLM)のトレーニングは通常、大規模な注釈付きデータセットに依存する。
本稿では,2つのGUI状態間の遷移を引き起こす初期動作を予測することで,VLMがGUIダイナミクスを学習する自己教師型逆動的タスクであるKステップGUIトランジションを紹介する。
本稿では,ルールベースの最適化とデータフィルタリングを組み合わせることで,VLM性能を向上させるための強化学習フレームワークであるGUI-Shiftを提案する。
論文 参考訳(メタデータ) (2025-05-18T16:34:30Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。