論文の概要: Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.21978v1
- Date: Fri, 24 Oct 2025 19:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.720621
- Title: Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models
- Title(参考訳): 推論以上の利得:大規模推論モデルにおける一般的な能力の低下
- Authors: Hoang Phan, Xianjun Yang, Kevin Yao, Jingyu Zhang, Shengjie Bi, Xiaocheng Tang, Madian Khabsa, Lijuan Liu, Deren Lei,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
- 参考スコア(独自算出の注目度): 33.214586668992965
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has delivered impressive gains in mathematical and multimodal reasoning and has become a standard post-training paradigm for contemporary language and vision-language models. However, the RLVR recipe introduces a significant risk of capability regression, where models forget foundational skills after prolonged training without employing regularization strategies. We empirically confirm this concern, observing that open-source reasoning models suffer performance degradation on core capabilities such as perception and faithfulness. While imposing regularization terms like KL divergence can help prevent deviation from the base model, these terms are calculated on the current task, thus they do not guarantee broader knowledge. Meanwhile, commonly used experience replay across heterogeneous domains makes it nontrivial to decide how much training focus each objective should receive. To address this, we propose RECAP-a replay strategy with dynamic objective reweighting for general knowledge preservation. Our reweighting mechanism adapts in an online manner using short-horizon signals of convergence and instability, shifting the post-training focus away from saturated objectives and toward underperforming or volatile ones. Our method is end-to-end and readily applicable to existing RLVR pipelines without training additional models or heavy tuning. Extensive experiments on benchmarks based on Qwen2.5-VL-3B and Qwen2.5-VL-7B demonstrate the effectiveness of our method, which not only preserves general capabilities but also improves reasoning by enabling more flexible trade-offs among in-task rewards.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、数学的およびマルチモーダル推論において顕著な進歩をもたらし、現代言語および視覚言語モデルのための標準訓練後パラダイムとなっている。
しかし、RLVRレシピでは、正規化戦略を使わずに、長期トレーニング後の基礎的スキルをモデルが忘れてしまうという、能力回帰の重大なリスクが生じる。
我々はこの懸念を実証的に確認し、オープンソースの推論モデルが知覚や忠実度などのコア機能に性能劣化を生じていることを観察した。
KLの発散のような正規化項はベースモデルからの逸脱を防ぐのに役立つが、これらの項は現在のタスクで計算されるため、より広範な知識は保証されない。
一方、不均質なドメイン間で一般的に使用される経験リプレイは、それぞれの目標にどの程度のトレーニング焦点をあてるかを決めるのに簡単ではない。
そこで本研究では,汎用知識保存のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
我々の再重み付け機構は、収束と不安定性の短水平信号を用いてオンライン的に適応し、トレーニング後の焦点を飽和目標から脱却し、性能の低いものや揮発的なものへとシフトさせる。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
Qwen2.5-VL-3B と Qwen2.5-VL-7B に基づくベンチマーク実験により,本手法の有効性が示された。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Native Reasoning Models: Training Language Models to Reason on Unverifiable Data [16.065264121785294]
NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
NRTは検証不要な手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-12T04:15:46Z) - Reinforcement Learning with Backtracking Feedback [12.680874918250069]
フィードバックフィードバックを用いた強化学習(RLBF)を紹介する。
このフレームワークは、BSAFEのような事前の手法に進化する。
RLBFは様々なベンチマークやモデルスケールでの攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2026-02-09T08:23:19Z) - Probing RLVR training instability through the lens of objective-level hacking [46.64585260377202]
本稿では,RLVRの不安定性を客観的ハッキングのレンズを通して理解するための原則的フレームワークを提案する。
30B MoEモデルに関する広範な実験とともに,本フレームワークを基盤として,本モデルの起源を追究し,そのメカニズムを定式化した。
これらの結果は、MoEモデルにおける不安定性の基礎となるトレーニングダイナミクスの具体的および因果的説明を提供し、安定したRLVRアルゴリズムの設計のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2026-02-01T08:55:27Z) - Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration [8.839121572048018]
より広範に焦点を絞った探索を促進するアルゴリズムであるRAPOを提案する。
8K SimpleRL-Zeroデータセット上で,RAPOを用いてQwen2.5-3Bと7Bモデルをトレーニングする。
その結果,RAPOは一貫して問題解決性能を向上することがわかった。
論文 参考訳(メタデータ) (2025-10-04T16:22:19Z) - ExGRPO: Learning to Reason from Experience [82.83309610498446]
検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を改善するための新たなパラダイムである。
標準的なオンライントレーニングは、1回の更新後にロールアウトエクスペリエンスを捨て、計算の非効率性と不安定性につながる。
本稿では,まず,経験価値の効果的な指標であるロールアウトの正しさとエントロピーを考察する。
論文 参考訳(メタデータ) (2025-10-02T17:31:30Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - RL as Regressor: A Reinforcement Learning Approach for Function Approximation [0.0]
強化学習(RL)問題としてフレーミング回帰を提案する。
モデルの予測をアクションとして扱い、予測誤差に基づいてカスタム報酬信号を定義することでこれを実証する。
我々は,RLフレームワークが回帰問題をうまく解決するだけでなく,目的の定義や学習プロセスの指導において柔軟性も向上することを示した。
論文 参考訳(メタデータ) (2025-07-31T21:39:24Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [36.69514399442043]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。