論文の概要: The Unreasonable Effectiveness of Scaling Agents for Computer Use
- arxiv url: http://arxiv.org/abs/2510.02250v1
- Date: Thu, 02 Oct 2025 17:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.257604
- Title: The Unreasonable Effectiveness of Scaling Agents for Computer Use
- Title(参考訳): コンピュータ利用におけるスケーリングエージェントの適当性
- Authors: Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang,
- Abstract要約: 本稿では,複数のロールアウトを生成し,その中の1つを選択することでエージェントをスケールする行動ベスト・オブ・N(bBoN)を紹介する。
OSWorldでは,我々のbBoNスケーリング手法が69.9%の新たな最先端技術(SoTA)を確立し,先行手法を著しく上回り,人間レベルのパフォーマンスに72%近づいた。
- 参考スコア(独自算出の注目度): 42.360659391336974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents (CUAs) hold promise for automating everyday digital tasks, but their unreliability and high variance hinder their application to long-horizon, complex tasks. We introduce Behavior Best-of-N (bBoN), a method that scales over agents by generating multiple rollouts and selecting among them using behavior narratives that describe the agents' rollouts. It enables both wide exploration and principled trajectory selection, substantially improving robustness and success rates. On OSWorld, our bBoN scaling method establishes a new state of the art (SoTA) at 69.9%, significantly outperforming prior methods and approaching human-level performance at 72%, with comprehensive ablations validating key design choices. We further demonstrate strong generalization results to different operating systems on WindowsAgentArena and AndroidWorld. Crucially, our results highlight the unreasonable effectiveness of scaling CUAs, when you do it right: effective scaling requires structured trajectory understanding and selection, and bBoN provides a practical framework to achieve this.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は日常的なデジタルタスクの自動化を約束するが、その信頼性と高い分散は、長期にわたる複雑なタスクへの応用を妨げる。
本稿では,複数のロールアウトを生成し,エージェントのロールアウトを記述した行動物語を用いて,複数のロールアウトを生成してエージェントをスケールする動作ベスト・オブ・N(bBoN)を紹介する。
広い探索と軌道選択の両立を可能にし、ロバスト性や成功率を大幅に向上させる。
OSWorldでは、我々のbBoNスケーリング手法が69.9%で新しい最先端(SoTA)を確立し、先行手法を著しく上回り、72%で人間レベルのパフォーマンスに近づいている。
さらに,WindowsAgentArenaとAndroidWorldの異なるオペレーティングシステムに対して,強力な一般化結果を示す。
実効的なスケーリングには構造化された軌跡の理解と選択が必要であり、bBoNはそれを実現するための実践的なフレームワークを提供する。
関連論文リスト
- AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - Training One Model to Master Cross-Level Agentic Actions via Reinforcement Learning [42.1534425503333]
CrossAgentは異種作用空間をマスターし、軌道の各ステップで最も効果的なインターフェースを自律的に選択する統合エージェントモデルである。
オープンソースのMinecraft環境における800以上のタスクの実験は、CrossAgentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-10T14:52:29Z) - Optimal-Agent-Selection: State-Aware Routing Framework for Efficient Multi-Agent Collaboration [20.982210711890513]
STRMACは、マルチエージェントシステムにおける効率的な協調のために設計された状態認識ルーティングフレームワークである。
提案手法は,ルータを駆動するためのインタラクション履歴とエージェント知識を符号化し,各ステップで最適な単一エージェントを適応的に選択する。
論文 参考訳(メタデータ) (2025-11-04T02:41:14Z) - WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。
我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。
本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文 参考訳(メタデータ) (2025-10-28T17:51:42Z) - Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - STEVE: A Step Verification Pipeline for Computer-use Agent Training [84.24814828303163]
STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。
GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。
我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文 参考訳(メタデータ) (2025-03-16T14:53:43Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control [1.1404490220482764]
BROは、犬とヒューマノイドのタスクにおいて、ほぼ最適ポリシーを達成するためのモデルフリーのアルゴリズムである。
BROは最先端の結果を達成し、主要なモデルベースおよびモデルフリーアルゴリズムを著しく上回っている。
BROは、非常に難しい犬とヒューマノイドのタスクにおいて、ほぼ最適なポリシーを達成した最初のモデルなしアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-25T09:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。