論文の概要: Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.09640v1
- Date: Sun, 10 May 2026 16:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.347746
- Title: Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning
- Title(参考訳): 強化微調整による視覚連続学習におけるカタストロフィック・フォーミングの克服
- Authors: Meng Lou, Hanzhong Guo, Linwei Chen, Yizhou Yu,
- Abstract要約: 補強細管 (RFT) は, スーパービジョン細管 (SFT) よりも本質的に破滅的忘れに対する耐性が高いことを示す。
本稿では,軌道レベルの報酬形成による忘れを明示的に緩和するシンプルなRFT手法であるRetention-Aware Policy Optimization (RaPO)を提案する。
RaPOは高い塑性を維持しながら破滅的な忘れを著しく減少させる。
- 参考スコア(独自算出の注目度): 44.7099384060866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies suggest that Reinforcement Fine-Tuning (RFT) is inherently more resilient to catastrophic forgetting than Supervised Fine-Tuning (SFT). However, whether RFT (e.g., GRPO) can effectively overcome forgetting in challenging visual continual learning settings, such as class-incremental learning (CIL) and domain-incremental learning (DIL), remains an open problem. Through a pilot study, we confirm that while RFT consistently outperforms SFT, it still suffers from non-negligible forgetting. We empirically trace this bottleneck to Trajectory-level Drift Agnosticism: among candidate rollouts achieving identical task rewards, the KL divergence from the preceding-task policy varies substantially, which strongly correlates with catastrophic forgetting across sequential tasks. Motivated by this insight, we propose Retention-aware Policy Optimization (RaPO), a simple yet effective RFT method that explicitly mitigates forgetting through trajectory-level reward shaping. Specifically, RaPO comprises two core components: (1) Retention Reward that converts trajectory-level distribution drift into a continuous reward signal, preferentially reinforcing knowledge-preserving rollouts within each group; (2) Cross-Task Advantage Normalization (CTAN), which maintains a persistent exponential moving average of reward statistics across task boundaries to stabilize the optimization progress during continual learning. Leveraging the free-form textual generalization of MLLMs, we comprehensively evaluate RaPO across five visual continual learning settings. Extensive experiments demonstrate that RaPO achieves leading performance, substantially reducing catastrophic forgetting while preserving strong plasticity. To the best of our knowledge, this work represents the first systematic exploration of RFT in visual continual learning, offering insights that we hope will inspire future research.
- Abstract(参考訳): 近年の研究では、強化細管 (RFT) は本質的にスーパービジョン細管 (SFT) よりも破滅的な忘れ方に耐性があることが示唆されている。
しかし、クラスインクリメンタルラーニング(CIL)やドメインインクリメンタルラーニング(DIL)といった難解な視覚的連続学習環境において、RTT(例えばGRPO)が忘れを効果的に克服できるかどうかは未解決の問題である。
パイロットスタディを通じて、RFTは一貫してSFTより優れていますが、それでも忘れることに悩まされています。
我々は、このボトルネックを、同一のタスク報酬を達成するための候補ロールアウトの中で、先行タスクポリシーからのKL偏差が著しく変化し、シーケンシャルタスク間の破滅的な忘れ込みと強く相関する、トラジェクティブレベルのドリフト・アグノスティック主義に実証的に追従する。
この知見に触発されて,軌道レベルの報酬形成による忘れを明示的に緩和するシンプルなRFT法であるRetention-Aware Policy Optimization (RaPO)を提案する。
具体的には、(1)軌道レベルの分布ドリフトを連続的な報酬信号に変換するリテンション・リワード(Retention Reward)、(2)各グループ内の知識保存ロールアウトを優先的に強化するリテンション・リワード(Retention Reward)、(2)タスク・アドバンテージ・正規化(CTAN)の2つのコアコンポーネントから構成される。
MLLMの自由形式のテキスト一般化を利用して、5つの視覚的連続学習環境においてRaPOを総合的に評価する。
急激な実験により、RaPOは高い塑性を維持しながら破滅的な忘れを著しく減らし、先進的な性能を発揮することが示されている。
我々の知る限りでは、この研究は視覚的連続学習におけるRFTの体系的な調査としては初めてであり、今後の研究に刺激を与えることを期待している。
関連論文リスト
- Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Anchored Supervised Fine-Tuning [26.17356786243252]
大規模言語モデルのポストトレーニングには、教師付き微調整と強化学習のトレードオフが含まれる。
Dynamic Fine-Tuning (DFT)は、最近、トークンの確率でSFTの目標を再重み付けする、有望な中核として登場した。
我々は, 軽量KL正則化によるDFTの再重み付けを向上し, 安定性を確保しつつ, 密度を維持したAnchored Supervised Fine-Tuning (ASFT)を提案する。
論文 参考訳(メタデータ) (2025-09-28T08:58:12Z) - Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective [52.38531288378491]
強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた
本研究では,RLの利点と制約をグラフに基づく抽出により検討する。
我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
論文 参考訳(メタデータ) (2025-09-26T17:39:48Z) - On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [36.69514399442043]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。