論文の概要: Probing RLVR training instability through the lens of objective-level hacking
- arxiv url: http://arxiv.org/abs/2602.01103v1
- Date: Sun, 01 Feb 2026 08:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.593893
- Title: Probing RLVR training instability through the lens of objective-level hacking
- Title(参考訳): 客観的ハッキングのレンズによるRLVRトレーニング不安定性の探索
- Authors: Yiming Dong, Kun Fu, Haoyu Li, Xinyuan Zhu, Yurou Liu, Lijing Shao, Jieping Ye, Zheng Wang,
- Abstract要約: 本稿では,RLVRの不安定性を客観的ハッキングのレンズを通して理解するための原則的フレームワークを提案する。
30B MoEモデルに関する広範な実験とともに,本フレームワークを基盤として,本モデルの起源を追究し,そのメカニズムを定式化した。
これらの結果は、MoEモデルにおける不安定性の基礎となるトレーニングダイナミクスの具体的および因果的説明を提供し、安定したRLVRアルゴリズムの設計のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 46.64585260377202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prolonged reinforcement learning with verifiable rewards (RLVR) has been shown to drive continuous improvements in the reasoning capabilities of large language models, but the training is often prone to instabilities, especially in Mixture-of-Experts (MoE) architectures. Training instability severely undermines model capability improvement, yet its underlying causes and mechanisms remain poorly understood. In this work, we introduce a principled framework for understanding RLVR instability through the lens of objective-level hacking. Unlike reward hacking, which arises from exploitable verifiers, objective-level hacking emerges from token-level credit misalignment and is manifested as system-level spurious signals in the optimization objective. Grounded in our framework, together with extensive experiments on a 30B MoE model, we trace the origin and formalize the mechanism behind a key pathological training dynamic in MoE models: the abnormal growth of the training-inference discrepancy, a phenomenon widely associated with instability but previously lacking a mechanistic explanation. These findings provide a concrete and causal account of the training dynamics underlying instabilities in MoE models, offering guidance for the design of stable RLVR algorithms.
- Abstract(参考訳): 検証可能な報酬を伴う長期強化学習(RLVR)は、大規模言語モデルの推論能力の継続的な改善を促進することが示されているが、特にMixture-of-Experts(MoE)アーキテクチャでは、トレーニングは不安定な場合が多い。
トレーニング不安定性はモデル能力の改善を著しく損なうが、その根底にある原因とメカニズムはよく分かっていない。
本研究では,RLVRの不安定性を客観的ハッキングのレンズを通して理解するための原則的フレームワークを提案する。
悪用可能なバリデーションから生じる報奨ハッキングとは異なり、トークンレベルのクレジットミスアライメントから客観的なハッキングが出現し、最適化目的においてシステムレベルのスプリアス信号として現れる。
筆者らは,30B MoEモデルに関する広範な実験とともに,MoEモデルにおける主要な病理組織学トレーニングダイナミックの背景にあるメカニズムを追究し,そのメカニズムを定式化した。
これらの結果は、MoEモデルにおける不安定性の基礎となるトレーニングダイナミクスの具体的および因果的説明を提供し、安定したRLVRアルゴリズムの設計のためのガイダンスを提供する。
関連論文リスト
- Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.0656076371565]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。
具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。
実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T05:47:48Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。