論文の概要: Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training
- arxiv url: http://arxiv.org/abs/2507.05386v1
- Date: Mon, 07 Jul 2025 18:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.293646
- Title: Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training
- Title(参考訳): 連続試験における強化微細加工の自然還元
- Authors: Song Lai, Haohan Zhao, Rong Feng, Changyi Ma, Wenzhuo Liu, Hongbo Zhao, Xi Lin, Dong Yi, Min Xie, Qingfu Zhang, Hongbin Liu, Gaofeng Meng, Fei Zhu,
- Abstract要約: 本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
- 参考スコア(独自算出の注目度): 23.99424961055015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual post-training (CPT) is a popular and effective technique for adapting foundation models like multimodal large language models to specific and ever-evolving downstream tasks. While existing research has primarily concentrated on methods like data replay, model expansion, or parameter regularization, the fundamental role of the learning paradigm within CPT remains largely unexplored. This paper presents a comparative analysis of two core post-training paradigms: supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT), investigating their respective impacts on knowledge retention during CPT. Our experiments are conducted on a benchmark comprising seven diverse multimodal tasks, utilizing Qwen2.5-VL-7B-Instruct as the base model for continual post-training. The investigation yields two significant findings: (1) When continuously learning on downstream tasks, SFT leads to catastrophic forgetting of previously learned tasks. In contrast, RFT inherently preserves prior knowledge and achieve performance comparable to multi-task training. (2) RFT successfully protects and even enhances the model's general knowledge on standard benchmarks (e.g., MMMU and MMLU-Pro). Conversely, SFT degrades general model capabilities severely. Further analysis shows that explicit mechanisms, such as KL penalty and chain-of-thought reasoning, are not the primary factors. Instead, we find that the implicit regularization inherent to RFT is a key factor in mitigating forgetting. Finally, we propose a rollout-based instance filtering algorithm to improve the stability and efficiency of RFT. Our comprehensive study demonstrates the superiority of RFT as a robust paradigm for continual post-training.
- Abstract(参考訳): CPT(Continuous Post-Training)は、マルチモーダルな大規模言語モデルのような基礎モデルを特定の下流タスクに適応するための、人気があり効果的なテクニックである。
既存の研究は主にデータ再生、モデル拡張、パラメータ正規化といった手法に焦点を合わせてきたが、CPTにおける学習パラダイムの基本的役割は明らかにされていない。
本稿では、教師付き微調整(SFT)と強化微調整(RFT)の2つの基本訓練後パラダイムの比較分析を行い、CPTにおける知識保持への影響について検討する。
本実験は,Qwen2.5-VL-7B-Instructを連続学習のベースモデルとして用いた,7つの多モードタスクからなるベンチマークで実施した。
1)下流のタスクを継続的に学習すると、SFTは以前に学習したタスクを破滅的に忘れてしまう。
対照的に、RFTは従来の知識を本質的に保存し、マルチタスクトレーニングに匹敵するパフォーマンスを達成する。
2) RFT は標準ベンチマーク(MMMU や MMLU-Pro など)におけるモデルの一般的な知識の保護や強化に成功している。
逆に、SFTは一般的なモデル能力を著しく劣化させる。
さらなる分析により、KLのペナルティや連鎖推論のような明確なメカニズムが主要な要因ではないことが示されている。
代わりに、RFTに固有の暗黙の正規化が、忘れを緩和する鍵となる要因であることがわかった。
最後に,RTTの安定性と効率を向上させるために,ロールアウト型インスタンスフィルタリングアルゴリズムを提案する。
我々の総合的な研究は、継続学習における堅牢なパラダイムとしてのRFTの優位性を実証している。
関連論文リスト
- Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [35.64557242726578]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文 参考訳(メタデータ) (2025-07-02T13:04:09Z) - Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。
SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Dual Decomposition of Weights and Singular Value Low Rank Adaptation [9.048461365342204]
重み行列を大きさと方向成分に分解する新しいアプローチであるDuDeを提案する。
評価の結果,MMLUでは48.35%,GSM8Kでは62.53%(pm$1.59)の精度が得られた。
論文 参考訳(メタデータ) (2025-05-20T13:49:15Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。