論文の概要: WebAnchor: Anchoring Agent Planning to Stabilize Long-Horizon Web Reasoning
- arxiv url: http://arxiv.org/abs/2601.03164v1
- Date: Tue, 06 Jan 2026 16:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.026969
- Title: WebAnchor: Anchoring Agent Planning to Stabilize Long-Horizon Web Reasoning
- Title(参考訳): WebAnchor: ロングホライゾンWeb推論を安定化するためのアンカリングエージェント計画
- Authors: Yu Xinmiao, Zhang Liwen, Feng Xiaocheng, Jiang Yong, Qin Bing, Xie Pengjun, Zhou Jingren,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、Web情報検索において強力な能力を示している。
Plan anchorは、長期にわたるWeb推論タスクにおいて、最初の推論ステップが下流の動作に不均等に影響を与えている場所です。
計画と実行を分離する2段階のRLフレームワークであるAnchor-GRPOを提案する。
- 参考スコア(独自算出の注目度): 0.05330327625867509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model(LLM)-based agents have shown strong capabilities in web information seeking, with reinforcement learning (RL) becoming a key optimization paradigm. However, planning remains a bottleneck, as existing methods struggle with long-horizon strategies. Our analysis reveals a critical phenomenon, plan anchor, where the first reasoning step disproportionately impacts downstream behavior in long-horizon web reasoning tasks. Current RL algorithms, fail to account for this by uniformly distributing rewards across the trajectory. To address this, we propose Anchor-GRPO, a two-stage RL framework that decouples planning and execution. In Stage 1, the agent optimizes its first-step planning using fine-grained rubrics derived from self-play experiences and human calibration. In Stage 2, execution is aligned with the initial plan through sparse rewards, ensuring stable and efficient tool usage. We evaluate Anchor-GRPO on four benchmarks: BrowseComp, BrowseComp-Zh, GAIA, and XBench-DeepSearch. Across models from 3B to 30B, Anchor-GRPO outperforms baseline GRPO and First-step GRPO, improving task success and tool efficiency. Notably, WebAnchor-30B achieves 46.0% pass@1 on BrowseComp and 76.4% on GAIA. Anchor-GRPO also demonstrates strong scalability, getting higher accuracy as model size and context length increase.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、強化学習(RL)が鍵となる最適化パラダイムとなり、Web情報検索において強力な能力を示している。
しかし、既存の手法は長期戦略に苦しむため、計画はボトルネックのままである。
本分析では,長期的ウェブ推論タスクにおいて,第1の推論ステップが下流行動に不均等に影響を及ぼす重要な現象であるプランアンカーを明らかにした。
現在のRLアルゴリズムは、軌道全体にわたって報酬を均一に分配することで、これを説明できない。
これを解決するために,計画と実行を分離する2段階のRLフレームワークであるAnchor-GRPOを提案する。
ステージ1では、エージェントは、自己プレイ体験と人間のキャリブレーションから派生したきめ細かい潤滑剤を用いて、第1段階の計画を最適化する。
ステージ2では、実行はスパース報酬によって初期計画と一致し、安定的で効率的なツールの使用が保証される。
BrowseComp, BrowseComp-Zh, GAIA, XBench-DeepSearchの4つのベンチマークでAnchor-GRPOを評価した。
3Bから30Bまでのモデル全体で、Anchor-GRPOはベースラインGRPOとファーストステップGRPOより優れ、タスクの成功とツール効率が改善されている。
特に、WebAnchor-30BはBrowseCompで46.0%、GAIAで76.4%を達成している。
Anchor-GRPOは強力なスケーラビリティを示し、モデルのサイズとコンテキスト長が増加するにつれて精度が向上する。
関連論文リスト
- Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - In-the-Flow Agentic System Optimization for Effective Planning and Tool Use [73.72524040856052]
AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。
Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。
エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-07T05:32:44Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Group-in-Group Policy Optimization for LLM Agent Training [17.243181792126563]
Group-in-Group Policy Optimization (GiGPO) は、LLMエージェントのきめ細かいクレジット割り当てを実現する新しいRLアルゴリズムである。
我々は, ALFWorld や WebShop などのエージェントベンチマークに対する GiGPO の評価と,検索強化されたQA タスクに対するツール統合推論を行った。
論文 参考訳(メタデータ) (2025-05-16T08:26:59Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control [1.1404490220482764]
BROは、犬とヒューマノイドのタスクにおいて、ほぼ最適ポリシーを達成するためのモデルフリーのアルゴリズムである。
BROは最先端の結果を達成し、主要なモデルベースおよびモデルフリーアルゴリズムを著しく上回っている。
BROは、非常に難しい犬とヒューマノイドのタスクにおいて、ほぼ最適なポリシーを達成した最初のモデルなしアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-25T09:53:25Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。