論文の概要: On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
- arxiv url: http://arxiv.org/abs/2512.04220v1
- Date: Wed, 03 Dec 2025 19:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.847176
- Title: On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
- Title(参考訳): Search-R1のGRPO崩壊について: 怠け者の死のスパイラル
- Authors: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li,
- Abstract要約: この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
- 参考スコア(独自算出の注目度): 59.14787085809595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.
- Abstract(参考訳): ツール統合(TI)強化学習(RL)により、大規模言語モデル(LLM)は、検索エンジンやレトリバーなどの外部ツールと対話することで、多段階の推論を行うことができる。
グループ相対政策最適化(GRPO)は、最近のSearch-R1で実証された、迅速な収束と価値のない定式化を提供する。
この障害を誘発する中核的なメカニズムとして,Lazy Likelihood Displacement (LLD) を正誤応答の可能性の体系的縮小あるいは停滞とみなす。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
探索-R1スタイルの探索統合質問応答タスクにおいて、この過程を経験的に特徴付け、一貫した3相軌道(早期停滞、定常崩壊、加速崩壊)を明らかにした。
これを解決するために,GRPO のための軽量な確率保存正則化 LLDS を提案する。
この微細構造は、最適化に最小限の干渉でLDDを緩和する。
7つのオープンドメインおよびマルチホップQAベンチマークで、トレーニングを安定化し、勾配爆発を防止し、Qwen2.5-3Bで+37.8%、Qwen2.5-7Bで+32.0%のゲインを含む大幅な性能改善を実現した。
GRPO ベースの TIRL の基本的なボトルネックとしてLDD を確立し,ツール統合 LLM の安定かつスケーラブルなトレーニングへの実践的な道筋を提供する。
関連論文リスト
- Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。