論文の概要: On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
- arxiv url: http://arxiv.org/abs/2512.04220v1
- Date: Wed, 03 Dec 2025 19:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.847176
- Title: On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
- Title(参考訳): Search-R1のGRPO崩壊について: 怠け者の死のスパイラル
- Authors: Wenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li,
- Abstract要約: この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
- 参考スコア(独自算出の注目度): 59.14787085809595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-integrated (TI) reinforcement learning (RL) enables large language models (LLMs) to perform multi-step reasoning by interacting with external tools such as search engines and retrievers. Group Relative Policy Optimization (GRPO), exemplified by the recent Search-R1, offers fast convergence and a value-free formulation that makes it appealing for this setting, yet consistently suffers from training collapse. We identify Lazy Likelihood Displacement (LLD), a systematic reduction or stagnation in the likelihood of both correct and incorrect responses, as the core mechanism driving this failure. LLD emerges early and triggers a self-reinforcing LLD Death Spiral, where declining likelihood leads to low-confidence responses, inflating gradients, and ultimately causing collapse. We empirically characterize this process across models on a Search-R1-style, search-integrated question answering task, revealing a consistent three-phase trajectory: early stagnation, steady decay, and accelerated collapse. To address this, we propose a lightweight likelihood-preserving regularization LLDS for GRPO that activates only when a trajectory's likelihood decreases, and regularizes only the tokens responsible. This fine-grained structure mitigates LLD with minimal interference to optimization. Across seven open-domain and multi-hop QA benchmarks, our method stabilizes training, prevents gradient explosion, and yields substantial performance improvements, including +37.8% gains on Qwen2.5-3B and +32.0% gains on Qwen2.5-7B. Our results establish LLD as a fundamental bottleneck in GRPO-based TIRL and provide a practical path toward stable, scalable training of tool-integrated LLM.
- Abstract(参考訳): ツール統合(TI)強化学習(RL)により、大規模言語モデル(LLM)は、検索エンジンやレトリバーなどの外部ツールと対話することで、多段階の推論を行うことができる。
グループ相対政策最適化(GRPO)は、最近のSearch-R1で実証された、迅速な収束と価値のない定式化を提供する。
この障害を誘発する中核的なメカニズムとして,Lazy Likelihood Displacement (LLD) を正誤応答の可能性の体系的縮小あるいは停滞とみなす。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
探索-R1スタイルの探索統合質問応答タスクにおいて、この過程を経験的に特徴付け、一貫した3相軌道(早期停滞、定常崩壊、加速崩壊)を明らかにした。
これを解決するために,GRPO のための軽量な確率保存正則化 LLDS を提案する。
この微細構造は、最適化に最小限の干渉でLDDを緩和する。
7つのオープンドメインおよびマルチホップQAベンチマークで、トレーニングを安定化し、勾配爆発を防止し、Qwen2.5-3Bで+37.8%、Qwen2.5-7Bで+32.0%のゲインを含む大幅な性能改善を実現した。
GRPO ベースの TIRL の基本的なボトルネックとしてLDD を確立し,ツール統合 LLM の安定かつスケーラブルなトレーニングへの実践的な道筋を提供する。
関連論文リスト
- Learning from the Irrecoverable: Error-Localized Policy Optimization for Tool-Integrated LLM Reasoning [36.23268783033404]
長い水平ツール統合推論軌道では、早期発見不可能な誤りが成功または失敗を決定できる。
本研究は,まず発見不可能なステップをローカライズし,それをきめ細かなクレジット代入に活用するために,ELPO(Error-Localized Policy Optimization)を提案する。
私たちのコードはまもなく公開されます。
論文 参考訳(メタデータ) (2026-02-10T09:50:24Z) - Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization [9.358876832727239]
自己教師付き強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための有望なアプローチを示す
従来の手法では,長期のトレーニングにおいて,パフォーマンスが急激に低下する「政治崩壊」という,致命的な障害モードに悩まされていることがわかった。
我々は、ゆっくりと進化する運動量モデルを利用して安定したトレーニングターゲットを提供するフレームワークであるM-GRPOを紹介する。
また,低エントロピートラジェクトリを動的に振る舞うIQR(Interquartile Range)に基づく適応フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2025-12-15T08:07:23Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。