論文の概要: Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search
- arxiv url: http://arxiv.org/abs/2604.18235v1
- Date: Mon, 20 Apr 2026 13:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.892436
- Title: Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search
- Title(参考訳): 負のアドバンテージは、深層検索のためのGRPOのキャリブレーション・アドバンテージ
- Authors: Jiayi Wu, Ruobing Xie, Zeqian Huang, Lei Jiang, Can Xu, Kangyang Luo, Ming Gao, Xiang Li,
- Abstract要約: ディープサーチエージェントは、検索エンジンとのマルチターンインタラクションを開始し、強力な質問応答能力を示す。
このようなパフォーマンスは、コアトレーニングアルゴリズムとしてグループ相対ポリシー最適化(GRPO)に依存している。
本稿では,深層探索タスクに特化して設計されたアドバンテージキャリブレーション手法であるCalibAdvを提案する。
- 参考スコア(独自算出の注目度): 46.519867732514825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep search agents can autonomously initiate multi-turn interactions with search engines, thereby exhibiting strong question-answering capabilities. Such performance critically relies on Group Relative Policy Optimization (GRPO) as its core training algorithm. However, GRPO still faces several challenges in deep search settings. First, there exists a substantial mismatch between the correctness of intermediate steps and the reward signal, causing numerous correct intermediate steps to be incorrectly penalized when the final answer is wrong. Second, training is highly unstable, often resulting in degradation of natural language ability or even catastrophic training collapse. Our analysis attributes these issues to coarse-grained advantage assignment and an imbalance between positive and negative advantages. To address these problems, we propose CalibAdv, an advantage calibration method specifically designed for deep search tasks. Specifically, CalibAdv leverages the correctness of intermediate steps to downscale excessive negative advantages at a fine-grained level. It then rebalances positive and negative advantages in the answer component. Extensive experiments across three models and seven benchmarks demonstrate that CalibAdv improves both model performance and training stability. Our code is available at https://github.com/wujwyi/CalibAdv.
- Abstract(参考訳): ディープサーチエージェントは、検索エンジンとのマルチターンインタラクションを自律的に開始することができ、強力な質問応答能力を示す。
このようなパフォーマンスは、コアトレーニングアルゴリズムとしてグループ相対ポリシー最適化(GRPO)に依存している。
しかし、GRPOは深い検索設定でいくつかの課題に直面している。
第一に、中間ステップの正しさと報奨信号の間にかなりのミスマッチが存在し、最終回答が間違っていれば、多数の正しい中間ステップが誤ってペナル化される。
第二に、訓練は非常に不安定で、しばしば自然言語能力の低下や破滅的な訓練の崩壊を引き起こす。
分析では,これらの問題点は,大まかに大まかに有利な割当と,正と負の負の負の負の偏りに起因している。
これらの問題に対処するため,我々は深層探索タスクに特化して設計されたアドバンテージキャリブレーション手法であるCalibAdvを提案する。
具体的には、CalibAdvは中間段階の正しさを利用して、きめ細かいレベルで過度の負の利点を下げる。
すると、答え成分の正と負の利点を再バランスする。
3つのモデルと7つのベンチマークにわたる大規模な実験は、CalibAdvがモデルパフォーマンスとトレーニング安定性の両方を改善していることを示している。
私たちのコードはhttps://github.com/wujwyi/CalibAdv.comで利用可能です。
関連論文リスト
- R$^2$PO: Decoupling Training Trajectories from Inference Responses for LLM Reasoning [38.722039062040096]
R$2$POは、トレーニングトラジェクトリを推論応答から切り離すためのポリシーの上に、軽量なResidual Rollout-Headを導入している。
その結果,MATH-500では平均精度が3.4%,APPSでは1.3%向上した。
論文 参考訳(メタデータ) (2026-01-17T08:30:50Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文 参考訳(メタデータ) (2024-11-06T18:36:22Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。