論文の概要: The Unreasonable Effectiveness of Scaling Agents for Computer Use
- arxiv url: http://arxiv.org/abs/2510.02250v1
- Date: Thu, 02 Oct 2025 17:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.257604
- Title: The Unreasonable Effectiveness of Scaling Agents for Computer Use
- Title(参考訳): コンピュータ利用におけるスケーリングエージェントの適当性
- Authors: Gonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang,
- Abstract要約: 本稿では,複数のロールアウトを生成し,その中の1つを選択することでエージェントをスケールする行動ベスト・オブ・N(bBoN)を紹介する。
OSWorldでは,我々のbBoNスケーリング手法が69.9%の新たな最先端技術(SoTA)を確立し,先行手法を著しく上回り,人間レベルのパフォーマンスに72%近づいた。
- 参考スコア(独自算出の注目度): 42.360659391336974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents (CUAs) hold promise for automating everyday digital tasks, but their unreliability and high variance hinder their application to long-horizon, complex tasks. We introduce Behavior Best-of-N (bBoN), a method that scales over agents by generating multiple rollouts and selecting among them using behavior narratives that describe the agents' rollouts. It enables both wide exploration and principled trajectory selection, substantially improving robustness and success rates. On OSWorld, our bBoN scaling method establishes a new state of the art (SoTA) at 69.9%, significantly outperforming prior methods and approaching human-level performance at 72%, with comprehensive ablations validating key design choices. We further demonstrate strong generalization results to different operating systems on WindowsAgentArena and AndroidWorld. Crucially, our results highlight the unreasonable effectiveness of scaling CUAs, when you do it right: effective scaling requires structured trajectory understanding and selection, and bBoN provides a practical framework to achieve this.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は日常的なデジタルタスクの自動化を約束するが、その信頼性と高い分散は、長期にわたる複雑なタスクへの応用を妨げる。
本稿では,複数のロールアウトを生成し,エージェントのロールアウトを記述した行動物語を用いて,複数のロールアウトを生成してエージェントをスケールする動作ベスト・オブ・N(bBoN)を紹介する。
広い探索と軌道選択の両立を可能にし、ロバスト性や成功率を大幅に向上させる。
OSWorldでは、我々のbBoNスケーリング手法が69.9%で新しい最先端(SoTA)を確立し、先行手法を著しく上回り、72%で人間レベルのパフォーマンスに近づいている。
さらに,WindowsAgentArenaとAndroidWorldの異なるオペレーティングシステムに対して,強力な一般化結果を示す。
実効的なスケーリングには構造化された軌跡の理解と選択が必要であり、bBoNはそれを実現するための実践的なフレームワークを提供する。
関連論文リスト
- On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - STEVE: A Step Verification Pipeline for Computer-use Agent Training [84.24814828303163]
STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。
GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。
我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文 参考訳(メタデータ) (2025-03-16T14:53:43Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control [1.1404490220482764]
BROは、犬とヒューマノイドのタスクにおいて、ほぼ最適ポリシーを達成するためのモデルフリーのアルゴリズムである。
BROは最先端の結果を達成し、主要なモデルベースおよびモデルフリーアルゴリズムを著しく上回っている。
BROは、非常に難しい犬とヒューマノイドのタスクにおいて、ほぼ最適なポリシーを達成した最初のモデルなしアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-25T09:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。