Fugu-MT 論文翻訳(概要): Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search

論文の概要: Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search

arxiv url: http://arxiv.org/abs/2604.18235v1
Date: Mon, 20 Apr 2026 13:21:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.892436
Title: Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search
Title（参考訳）: 負のアドバンテージは、深層検索のためのGRPOのキャリブレーション・アドバンテージ
Authors: Jiayi Wu, Ruobing Xie, Zeqian Huang, Lei Jiang, Can Xu, Kangyang Luo, Ming Gao, Xiang Li,
Abstract要約: ディープサーチエージェントは、検索エンジンとのマルチターンインタラクションを開始し、強力な質問応答能力を示す。このようなパフォーマンスは、コアトレーニングアルゴリズムとしてグループ相対ポリシー最適化(GRPO)に依存している。本稿では,深層探索タスクに特化して設計されたアドバンテージキャリブレーション手法であるCalibAdvを提案する。
参考スコア（独自算出の注目度）: 46.519867732514825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep search agents can autonomously initiate multi-turn interactions with search engines, thereby exhibiting strong question-answering capabilities. Such performance critically relies on Group Relative Policy Optimization (GRPO) as its core training algorithm. However, GRPO still faces several challenges in deep search settings. First, there exists a substantial mismatch between the correctness of intermediate steps and the reward signal, causing numerous correct intermediate steps to be incorrectly penalized when the final answer is wrong. Second, training is highly unstable, often resulting in degradation of natural language ability or even catastrophic training collapse. Our analysis attributes these issues to coarse-grained advantage assignment and an imbalance between positive and negative advantages. To address these problems, we propose CalibAdv, an advantage calibration method specifically designed for deep search tasks. Specifically, CalibAdv leverages the correctness of intermediate steps to downscale excessive negative advantages at a fine-grained level. It then rebalances positive and negative advantages in the answer component. Extensive experiments across three models and seven benchmarks demonstrate that CalibAdv improves both model performance and training stability. Our code is available at https://github.com/wujwyi/CalibAdv.
Abstract（参考訳）: ディープサーチエージェントは、検索エンジンとのマルチターンインタラクションを自律的に開始することができ、強力な質問応答能力を示す。このようなパフォーマンスは、コアトレーニングアルゴリズムとしてグループ相対ポリシー最適化(GRPO)に依存している。しかし、GRPOは深い検索設定でいくつかの課題に直面している。第一に、中間ステップの正しさと報奨信号の間にかなりのミスマッチが存在し、最終回答が間違っていれば、多数の正しい中間ステップが誤ってペナル化される。第二に、訓練は非常に不安定で、しばしば自然言語能力の低下や破滅的な訓練の崩壊を引き起こす。分析では,これらの問題点は,大まかに大まかに有利な割当と,正と負の負の負の負の偏りに起因している。これらの問題に対処するため,我々は深層探索タスクに特化して設計されたアドバンテージキャリブレーション手法であるCalibAdvを提案する。具体的には、CalibAdvは中間段階の正しさを利用して、きめ細かいレベルで過度の負の利点を下げる。すると、答え成分の正と負の利点を再バランスする。 3つのモデルと7つのベンチマークにわたる大規模な実験は、CalibAdvがモデルパフォーマンスとトレーニング安定性の両方を改善していることを示している。私たちのコードはhttps://github.com/wujwyi/CalibAdv.comで利用可能です。

論文の概要: Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search

関連論文リスト