論文の概要: Agent Alpha: Tree Search Unifying Generation, Exploration and Evaluation for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2602.02995v1
- Date: Tue, 03 Feb 2026 02:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.188027
- Title: Agent Alpha: Tree Search Unifying Generation, Exploration and Evaluation for Computer-Use Agents
- Title(参考訳): エージェントアルファ:コンピュータ利用エージェントの生成・探索・評価を統合する木探索
- Authors: Sizhe Tang, Rongqian Chen, Tian Lan,
- Abstract要約: Agent Alphaは、ステップレベルのモンテカルロ木探索(MCTS)を通じて生成、探索、評価を相乗化するための統合フレームワークである
OSWorldベンチマークでは、Agens Alphaは最先端の成功率$sim 77%を達成し、同等の計算で軌道レベルのベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 6.357946414392768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While scaling test-time compute through trajectory-level sampling has significantly improved Graphical User Interface (GUI) agents, the lack of regressive ability prevents the reuse of partial successes and the recovery from early missteps. In this paper, we introduce Agent Alpha, a unified framework that synergizes generation, exploration, and evaluation through step-level Monte Carlo Tree Search (MCTS). It enables active modeling or exploiting structures of the planning space. By integrating alpha-UCT guided search into the interaction loop, Agent Alpha enables deliberate planning, facilitating early pruning of suboptimal branches and efficient prefix reuse. We also employ comparison-driven evaluation to mitigate absolute scoring biases and diversity-constrained expansion to maintain a compact, informative search space. Regret bound of alpha-UCT is analyzed. On the OSWorld benchmark, Agent Alpha achieves a state-of-the-art success rate of $\sim 77\%$, significantly outperforming trajectory-level baselines under equivalent compute.
- Abstract(参考訳): 軌道レベルのサンプリングによるテスト時間計算のスケーリングはグラフィカルユーザインタフェース(GUI)エージェントを大幅に改善したが、回帰能力の欠如は部分的な成功の再利用や早期の失敗からの回復を妨げている。
本稿では,ステップレベルモンテカルロ木探索(MCTS)による生成,探索,評価を統括する統合フレームワークであるAgent Alphaを紹介する。
アクティブなモデリングや計画空間の構造の活用を可能にする。
α-UCT誘導探索を相互作用ループに統合することにより、Agent Alphaは意図的な計画を可能にし、最適化された枝の早期刈り出しと効率的なプレフィックス再利用を容易にする。
また、絶対的なスコアリングバイアスと多様性に制約のある拡張を緩和し、コンパクトで情報的な検索空間を維持するために比較駆動評価を用いる。
α-UCTのレグレトバウンドを解析する。
OSWorldベンチマークでは、Agens Alphaは最先端の成功率の$\sim 77\%$を達成し、同等の計算の下で軌道レベルのベースラインを著しく上回っている。
関連論文リスト
- TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。
このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。
計算コストを削減しながら、大きな利益を得ることができます。
論文 参考訳(メタデータ) (2025-10-27T17:59:14Z) - Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning [32.78218766121055]
グラフ検索拡張生成(GraphRAG)は,複雑な推論において,大規模言語モデルを効果的に拡張した。
本稿では,フレームワーク全体を複雑な統合として結合する,垂直に統一されたエージェントパラダイムYoutu-GraphRAGを提案する。
論文 参考訳(メタデータ) (2025-08-27T13:13:20Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - AlphaZeroES: Direct score maximization outperforms planning loss minimization [61.17702187957206]
実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2024-06-12T23:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。