Fugu-MT 論文翻訳(概要): Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training

論文の概要: Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training

arxiv url: http://arxiv.org/abs/2507.05386v3
Date: Tue, 30 Sep 2025 07:32:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-01 14:44:59.783523
Title: Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training
Title（参考訳）: 連続試験における強化微細加工の自然還元
Authors: Song Lai, Haohan Zhao, Rong Feng, Changyi Ma, Wenzhuo Liu, Hongbo Zhao, Xi Lin, Dong Yi, Min Xie, Qingfu Zhang, Hongbin Liu, Gaofeng Meng, Fei Zhu,
Abstract要約: 本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
参考スコア（独自算出の注目度）: 36.69514399442043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continual post-training (CPT) is a popular and effective technique for adapting foundation models like multimodal large language models to specific and ever-evolving downstream tasks. While existing research has primarily concentrated on methods like data replay, model expansion, or parameter regularization, the fundamental role of the learning paradigm within CPT remains largely unexplored. This paper presents a comparative analysis of two core post-training paradigms: supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT), investigating their respective impacts on knowledge retention during CPT. Our experiments are conducted on a benchmark comprising seven diverse multimodal tasks, utilizing Qwen2.5-VL-7B-Instruct as the base model for continual post-training. The investigation yields two significant findings: (1) When continuously learning on downstream tasks, SFT leads to catastrophic forgetting of previously learned tasks. In contrast, RFT inherently preserves prior knowledge and achieve performance comparable to multi-task training. (2) RFT successfully protects and even enhances the model's general knowledge on standard benchmarks (e.g., MMMU and MMLU-Pro). Conversely, SFT degrades general model capabilities severely. Further analysis reveals that this stability is not primarily due to explicit mechanisms like KL penalty or chain-of-thought reasoning. Instead, we identify an implicit regularization mechanism inherent to RFT as a key contributing factor. Our theoretical analysis suggests that RFT's gradient updates are naturally scaled by the reward variance, acting as a data-dependent regularizer that inherently protects previously acquired knowledge. Finally, we propose a rollout-based instance filtering algorithm to enhance the stability and efficiency of RFT. Our comprehensive study demonstrates the superiority of RFT as a robust paradigm for continual post-training.
Abstract（参考訳）: CPT(Continuous Post-Training)は、マルチモーダルな大規模言語モデルのような基礎モデルを特定の下流タスクに適応するための、人気があり効果的なテクニックである。既存の研究は主にデータ再生、モデル拡張、パラメータ正規化といった手法に焦点を合わせてきたが、CPTにおける学習パラダイムの基本的役割は明らかにされていない。本稿では、教師付き微調整(SFT)と強化微調整(RFT)の2つの基本訓練後パラダイムの比較分析を行い、CPTにおける知識保持への影響について検討する。本実験は,Qwen2.5-VL-7B-Instructを連続学習のベースモデルとして用いた,7つの多モードタスクからなるベンチマークで実施した。 1)下流のタスクを継続的に学習すると、SFTは以前に学習したタスクを破滅的に忘れてしまう。対照的に、RFTは従来の知識を本質的に保存し、マルチタスクトレーニングに匹敵するパフォーマンスを達成する。 2) RFT は標準ベンチマーク(MMMU や MMLU-Pro など)におけるモデルの一般的な知識の保護や強化に成功している。逆に、SFTは一般的なモデル能力を著しく劣化させる。さらなる分析により、この安定性は、主にKLのペナルティやチェーン・オブ・シークレットの推論のような明確なメカニズムによるものではないことが明らかになった。代わりに、RFTに固有の暗黙の正規化機構を重要な寄与要因として同定する。我々の理論的分析は、RFTの勾配更新は報酬分散によって自然にスケールされ、データ依存型正規化器として機能し、本来は獲得した知識を保護していることを示唆している。最後に,RTTの安定性と効率を向上させるために,ロールアウト型インスタンスフィルタリングアルゴリズムを提案する。我々の総合的な研究は、継続学習における堅牢なパラダイムとしてのRFTの優位性を実証している。

関連論文リスト

How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。推論を原子核スキルに分解する新しいベンチマークを導入する。 SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文参考訳（メタデータ） (2025-12-30T08:16:20Z)
Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。 5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-19T14:37:07Z)
Anchored Supervised Fine-Tuning [26.17356786243252]
大規模言語モデルのポストトレーニングには、教師付き微調整と強化学習のトレードオフが含まれる。 Dynamic Fine-Tuning (DFT)は、最近、トークンの確率でSFTの目標を再重み付けする、有望な中核として登場した。我々は, 軽量KL正則化によるDFTの再重み付けを向上し, 安定性を確保しつつ, 密度を維持したAnchored Supervised Fine-Tuning (ASFT)を提案する。
論文参考訳（メタデータ） (2025-09-28T08:58:12Z)
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。 SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文参考訳（メタデータ） (2025-08-15T11:20:03Z)
Revisiting Continual Semantic Segmentation with Pre-trained Vision Models [53.56065605992639]
連続セマンティック(CSS)は、それまで遭遇したクラスについての知識を保持しながら、新しいクラスを段階的に分割することを目指している。 CSSの最近の進歩は、事前訓練されたビジョンモデル(PVM)をバックボーンとして採用することで推進されている。既存の戦略の中で、クラス間でモデルを逐次微調整するDirect Fine-Tuning (DFT)が最も単純なアプローチである。
論文参考訳（メタデータ） (2025-08-06T09:51:46Z)
MLLM-CBench:A Comprehensive Benchmark for Continual Instruction Tuning of Multimodal LLMs with Chain-of-Thought Reasoning Analysis [21.091157331212493]
マルチモーダル大規模言語モデル(MLLM)は、動的実世界の要求に適応するために、訓練後のフェーズで連続的な命令チューニングを必要とする。 textbfMLLM-CTBenchは、6つの異なるドメインから7つの課題を3つのコントリビューションでキュレートしたデータセットである。
論文参考訳（メタデータ） (2025-07-31T07:49:36Z)
Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [35.64557242726578]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文参考訳（メタデータ） (2025-07-02T13:04:09Z)
Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。 SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文参考訳（メタデータ） (2025-06-30T04:15:01Z)
Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Dual Decomposition of Weights and Singular Value Low Rank Adaptation [9.048461365342204]
重み行列を大きさと方向成分に分解する新しいアプローチであるDuDeを提案する。評価の結果,MMLUでは48.35%,GSM8Kでは62.53%(pm$1.59)の精度が得られた。
論文参考訳（メタデータ） (2025-05-20T13:49:15Z)
R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。 R-TPTは、推論段階における敵攻撃の影響を緩和する。プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文参考訳（メタデータ） (2025-04-15T13:49:31Z)
Understanding Fine-tuning in Approximate Unlearning: A Theoretical Perspective [39.958103832214135]
ファインチューニング(FT)手法は、未学習を近似するための基本的なアプローチの1つとなっている。本稿では,線形回帰フレームワーク内での機械学習のためのFT法に関する最初の理論的解析を行う。本稿では,残りのデータセットに基づいて重量分布マップを構築するRBM(Retention-Based Masking)戦略を提案する。
論文参考訳（メタデータ） (2024-10-04T18:01:52Z)
Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。 KL偏差正規化損失関数の最適化により重みを求める。提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文参考訳（メタデータ） (2023-08-01T06:16:18Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。