Fugu-MT 論文翻訳(概要): Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization

論文の概要: Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization

arxiv url: http://arxiv.org/abs/2604.14267v2
Date: Mon, 20 Apr 2026 14:14:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 19:27:32.410645
Title: Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization
Title（参考訳）: 貢献重み付きグループ相対ポリシー最適化によるLLM検索エージェントの強化
Authors: Junzhe Wang, Zhiheng Xi, Yajie Yang, Hao Luo, Shihan Dou, Tao Gui, Qi Zhang,
Abstract要約: 本稿では,プロセスの監督をグループ相対的な政策最適化に統合するフレームワークであるコントリビューション重み付きGRPOを提案する。 CW-GRPOは、LLM判定器を用いて、検索ラウンド毎の検索ユーティリティと推論精度を評価し、ラウンド毎のコントリビューションスコアを生成する。複数の知識集約型ベンチマークの実験では、CW-GRPOはQwen3-8Bでは5.0%、Qwen3-1.7Bでは6.3%、標準GRPOより優れていた。
参考スコア（独自算出の注目度）: 47.7937991619078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Search agents extend Large Language Models (LLMs) beyond static parametric knowledge by enabling access to up-to-date and long-tail information unavailable during pretraining. While reinforcement learning has been widely adopted for training such agents, existing approaches face key limitations: process supervision often suffers from unstable value estimation, whereas outcome supervision struggles with credit assignment due to sparse, trajectory-level rewards. To bridge this gap, we propose Contribution-Weighted GRPO (CW-GRPO), a framework that integrates process supervision into group relative policy optimization. Instead of directly optimizing process rewards, CW-GRPO employs an LLM judge to assess the retrieval utility and reasoning correctness at each search round, producing per-round contribution scores. These scores are used to rescale outcome-based advantages along the trajectory, enabling fine-grained credit assignment without sacrificing optimization stability. Experiments on multiple knowledge-intensive benchmarks show that CW-GRPO outperforms standard GRPO by 5.0% on Qwen3-8B and 6.3% on Qwen3-1.7B, leading to more effective search behaviors. Additional analysis reveals that successful trajectories exhibit concentrated contributions in specific rounds, providing empirical insight into search agent tasks.
Abstract（参考訳）: 検索エージェントは、事前トレーニング中に利用できない最新情報と長期情報へのアクセスを可能にすることで、静的パラメトリック知識を超えてLarge Language Models (LLM)を拡張する。このようなエージェントの訓練には強化学習が広く採用されているが、既存のアプローチでは、プロセスの監督は不安定な価値推定に悩まされることが多い。このギャップを埋めるために、プロセスの監督をグループ相対的なポリシー最適化に統合するフレームワークであるコントリビューション重み付きGRPO(CW-GRPO)を提案する。プロセス報酬を直接最適化する代わりに、CW-GRPO は LLM の判断を用いて、検索ラウンド毎の検索ユーティリティを評価し、正当性を推論し、ラウンド毎のコントリビューションスコアを生成する。これらのスコアは、結果に基づく利点を軌道に沿って再スケールするために使用され、最適化の安定性を犠牲にすることなく、きめ細かいクレジット割り当てを可能にします。複数の知識集約型ベンチマークの実験では、CW-GRPOはQwen3-8Bでは5.0%、Qwen3-1.7Bでは6.3%で標準GRPOより優れており、より効率的な探索行動をもたらすことが示されている。さらなる分析により、成功した軌道は特定のラウンドへの集中的な貢献を示し、探索エージェントタスクに関する経験的な洞察を提供することが明らかとなった。

論文の概要: Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization

関連論文リスト