論文の概要: Self-Distillation Enables Continual Learning
- arxiv url: http://arxiv.org/abs/2601.19897v1
- Date: Tue, 27 Jan 2026 18:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.442687
- Title: Self-Distillation Enables Continual Learning
- Title(参考訳): 自己蒸留は継続的な学習を可能にする
- Authors: Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal,
- Abstract要約: SDFT (Self-Distillation Fine-Tuning) は、実証から直接政治学を学ぶことができる方法である。
SDFTは教師付き微調整を一貫して上回り、新しいタスクの精度を高める。
逐次学習実験では、SDFTは1つのモデルでパフォーマンスの回帰なしに、時間とともに複数のスキルを蓄積することができる。
- 参考スコア(独自算出の注目度): 12.996554934410412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.
- Abstract(参考訳): モデルが既存の能力を損なうことなく、新たなスキルと知識を習得することのできる継続的な学習は、基礎モデルの根本的な課題である。
政治的強化学習は忘れることを減らすことができるが、しばしば利用できない明示的な報酬関数を必要とする。
専門家によるデモンストレーションから学ぶことは、主要な代替手段であり、本質的には非政治的な教師付き微調整(SFT)によって支配されている。
本稿では,実証から直接政治学を学べる簡易な方法である自己蒸留細管(SDFT)を紹介する。
SDFTは、実証条件付きモデルを独自の教師として利用し、新しいスキルを身につけながら、事前の能力を保ったオンライントレーニング信号を生成することで、コンテキスト内学習を活用する。
スキル学習と知識獲得のタスク全体で、SDFTは一貫してSFTより優れており、破滅的な忘れを著しく減らしながら、新しいタスクの精度を高める。
逐次学習実験では、SDFTはパフォーマンスの劣化を伴わずに、一度に複数のスキルを蓄積し、実証から継続的に学習するための実践的な方法として、オンライン蒸留を確立する。
関連論文リスト
- Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Continually Learning Self-Supervised Representations with Projected
Functional Regularization [39.92600544186844]
近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。
これらの手法は、新たな知識を段階的に取得することができない -- 実際、主にIDデータによる事前学習フェーズとしてのみ使用される。
従来の知識を忘れないように,機能正規化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-30T11:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。