論文の概要: CoAct-1: Computer-using Agents with Coding as Actions
- arxiv url: http://arxiv.org/abs/2508.03923v1
- Date: Tue, 05 Aug 2025 21:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.452255
- Title: CoAct-1: Computer-using Agents with Coding as Actions
- Title(参考訳): CoAct-1: コーディングをアクションとするコンピュータ利用エージェント
- Authors: Linxin Song, Yutong Dai, Viraj Prabhu, Jieyu Zhang, Taiwei Shi, Li Li, Junnan Li, Silvio Savarese, Zeyuan Chen, Jieyu Zhao, Ran Xu, Caiming Xiong,
- Abstract要約: CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。
我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
- 参考スコア(独自算出の注目度): 94.99657662893338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents that operate computers via Graphical User Interfaces (GUIs) often struggle with efficiency and reliability on complex, long-horizon tasks. While augmenting these agents with planners can improve task decomposition, they remain constrained by the inherent limitations of performing all actions through GUI manipulation, leading to brittleness and inefficiency. In this work, we introduce a more robust and flexible paradigm: enabling agents to use coding as a enhanced action. We present CoAct-1, a novel multi-agent system that synergistically combines GUI-based control with direct programmatic execution. CoAct-1 features an Orchestrator that dynamically delegates subtasks to either a conventional GUI Operator or a specialized Programmer agent, which can write and execute Python or Bash scripts. This hybrid approach allows the agent to bypass inefficient GUI action sequences for tasks like file management and data processing, while still leveraging visual interaction when necessary. We evaluate our system on the challenging OSWorld benchmark, where CoAct-1 achieves a new state-of-the-art success rate of 60.76%, significantly outperforming prior methods. Furthermore, our approach dramatically improves efficiency, reducing the average number of steps required to complete a task to just 10.15, compared to 15 for leading GUI agents. Our results demonstrate that integrating coding as a core action provides a more powerful, efficient, and scalable path toward generalized computer automation.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)を介してコンピュータを操作する自律エージェントは、複雑で長期にわたるタスクにおいて効率と信頼性に苦慮することが多い。
これらのエージェントをプランナーで強化することはタスクの分解を改善することができるが、GUI操作を通じてすべてのアクションを実行するという固有の制限によって制約され、不安定さと非効率性をもたらす。
この作業では、より堅牢で柔軟なパラダイムを導入し、エージェントが強化されたアクションとしてコーディングを使用できるようにします。
本稿では,GUIベースの制御と直接プログラム実行を相乗的に組み合わせた,新しいマルチエージェントシステムであるCoAct-1を提案する。
CoAct-1は、PythonやBashスクリプトを記述および実行可能な、従来のGUIオペレータまたは特別なProgrammerエージェントにサブタスクを動的に委譲するOrchestratorを備えている。
このハイブリッドアプローチにより、エージェントはファイル管理やデータ処理といったタスクの非効率なGUIアクションシーケンスをバイパスし、必要に応じて視覚的なインタラクションを活用できる。
我々は、CoAct-1が60.76%の最先端の成功率を達成し、従来の手法よりも大幅に上回っているOSWorldベンチマークにおいて、我々のシステムを評価した。
さらに,本手法は効率を劇的に向上させ,タスク完了に必要な平均ステップ数を10.15に削減する。
我々の結果は、コーディングをコアアクションとして統合することで、より強力で効率的でスケーラブルな、一般化されたコンピュータ自動化への道がもたらされることを実証している。
関連論文リスト
- MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - AppAgentX: Evolving GUI Agents as Proficient Smartphone Users [34.70342284525283]
本稿では,インテリジェンスと柔軟性を維持しつつ,操作効率を向上させるGUIエージェントの進化的フレームワークを提案する。
本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。
複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。
論文 参考訳(メタデータ) (2025-03-04T04:34:09Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。