論文の概要: Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.14267v2
- Date: Mon, 20 Apr 2026 14:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 19:27:32.410645
- Title: Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization
- Title(参考訳): 貢献重み付きグループ相対ポリシー最適化によるLLM検索エージェントの強化
- Authors: Junzhe Wang, Zhiheng Xi, Yajie Yang, Hao Luo, Shihan Dou, Tao Gui, Qi Zhang,
- Abstract要約: 本稿では,プロセスの監督をグループ相対的な政策最適化に統合するフレームワークであるコントリビューション重み付きGRPOを提案する。
CW-GRPOは、LLM判定器を用いて、検索ラウンド毎の検索ユーティリティと推論精度を評価し、ラウンド毎のコントリビューションスコアを生成する。
複数の知識集約型ベンチマークの実験では、CW-GRPOはQwen3-8Bでは5.0%、Qwen3-1.7Bでは6.3%、標準GRPOより優れていた。
- 参考スコア(独自算出の注目度): 47.7937991619078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search agents extend Large Language Models (LLMs) beyond static parametric knowledge by enabling access to up-to-date and long-tail information unavailable during pretraining. While reinforcement learning has been widely adopted for training such agents, existing approaches face key limitations: process supervision often suffers from unstable value estimation, whereas outcome supervision struggles with credit assignment due to sparse, trajectory-level rewards. To bridge this gap, we propose Contribution-Weighted GRPO (CW-GRPO), a framework that integrates process supervision into group relative policy optimization. Instead of directly optimizing process rewards, CW-GRPO employs an LLM judge to assess the retrieval utility and reasoning correctness at each search round, producing per-round contribution scores. These scores are used to rescale outcome-based advantages along the trajectory, enabling fine-grained credit assignment without sacrificing optimization stability. Experiments on multiple knowledge-intensive benchmarks show that CW-GRPO outperforms standard GRPO by 5.0% on Qwen3-8B and 6.3% on Qwen3-1.7B, leading to more effective search behaviors. Additional analysis reveals that successful trajectories exhibit concentrated contributions in specific rounds, providing empirical insight into search agent tasks.
- Abstract(参考訳): 検索エージェントは、事前トレーニング中に利用できない最新情報と長期情報へのアクセスを可能にすることで、静的パラメトリック知識を超えてLarge Language Models (LLM)を拡張する。
このようなエージェントの訓練には強化学習が広く採用されているが、既存のアプローチでは、プロセスの監督は不安定な価値推定に悩まされることが多い。
このギャップを埋めるために、プロセスの監督をグループ相対的なポリシー最適化に統合するフレームワークであるコントリビューション重み付きGRPO(CW-GRPO)を提案する。
プロセス報酬を直接最適化する代わりに、CW-GRPO は LLM の判断を用いて、検索ラウンド毎の検索ユーティリティを評価し、正当性を推論し、ラウンド毎のコントリビューションスコアを生成する。
これらのスコアは、結果に基づく利点を軌道に沿って再スケールするために使用され、最適化の安定性を犠牲にすることなく、きめ細かいクレジット割り当てを可能にします。
複数の知識集約型ベンチマークの実験では、CW-GRPOはQwen3-8Bでは5.0%、Qwen3-1.7Bでは6.3%で標準GRPOより優れており、より効率的な探索行動をもたらすことが示されている。
さらなる分析により、成功した軌道は特定のラウンドへの集中的な貢献を示し、探索エージェントタスクに関する経験的な洞察を提供することが明らかとなった。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning [5.880405013005892]
ACPOは、困難なカリキュラムを組み込んだ段階的なフレームワークである。
ACPOは、トラジェクティブセマンティックセグメンテーションと属性ベースの表現を用いて探索を改善する。
これは、各推論ステップの階層的寄与を正確に定量化する分解された報酬システムによる搾取を強化する。
論文 参考訳(メタデータ) (2025-10-10T01:22:55Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。