論文の概要: Self-Distillation Enables Continual Learning
- arxiv url: http://arxiv.org/abs/2601.19897v1
- Date: Tue, 27 Jan 2026 18:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.442687
- Title: Self-Distillation Enables Continual Learning
- Title(参考訳): 自己蒸留は継続的な学習を可能にする
- Authors: Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal,
- Abstract要約: SDFT (Self-Distillation Fine-Tuning) は、実証から直接政治学を学ぶことができる方法である。
SDFTは教師付き微調整を一貫して上回り、新しいタスクの精度を高める。
逐次学習実験では、SDFTは1つのモデルでパフォーマンスの回帰なしに、時間とともに複数のスキルを蓄積することができる。
- 参考スコア(独自算出の注目度): 12.996554934410412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.
- Abstract(参考訳): モデルが既存の能力を損なうことなく、新たなスキルと知識を習得することのできる継続的な学習は、基礎モデルの根本的な課題である。
政治的強化学習は忘れることを減らすことができるが、しばしば利用できない明示的な報酬関数を必要とする。
専門家によるデモンストレーションから学ぶことは、主要な代替手段であり、本質的には非政治的な教師付き微調整(SFT)によって支配されている。
本稿では,実証から直接政治学を学べる簡易な方法である自己蒸留細管(SDFT)を紹介する。
SDFTは、実証条件付きモデルを独自の教師として利用し、新しいスキルを身につけながら、事前の能力を保ったオンライントレーニング信号を生成することで、コンテキスト内学習を活用する。
スキル学習と知識獲得のタスク全体で、SDFTは一貫してSFTより優れており、破滅的な忘れを著しく減らしながら、新しいタスクの精度を高める。
逐次学習実験では、SDFTはパフォーマンスの劣化を伴わずに、一度に複数のスキルを蓄積し、実証から継続的に学習するための実践的な方法として、オンライン蒸留を確立する。
関連論文リスト
- IDER: IDempotent Experience Replay for Reliable Continual Learning [36.35747221992653]
破滅的忘れは継続学習(CL)における大きな課題である
既存の不確実性を考慮したCL法は、計算オーバーヘッドが高く、主流の再生法と相容れない。
本稿では、繰り返し関数が同じ出力を出力する等等性性に基づく新しいアプローチである、等等性体験再生(IDER)を提案する。
論文 参考訳(メタデータ) (2026-02-28T12:34:18Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Beyond Imitation: Recovering Dense Rewards from Demonstrations [64.05543657441218]
教師付き微調整は単純な模倣学習プロセスとして扱われ、データセット上の専門家の振る舞いを模倣するポリシーを訓練するのみである。
我々は、SFTプロセスが政策を学習するだけでなく、専門家のデモンストレーションを説明する暗黙の、密集したトークンレベルの報酬モデルも示している。
Dense-Path ReINFORCEは命令追従ベンチマークにおいて、元のSFTモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-10-02T18:58:26Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - New Insights on Relieving Task-Recency Bias for Online Class Incremental
Learning [37.888061221999294]
あらゆる設定において、オンラインクラスインクリメンタルラーニング(OCIL)はより困難であり、現実世界でより頻繁に遭遇する可能性がある。
安定性と塑性のトレードオフに対処するため,Adaptive Focus Shiftingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-16T11:52:00Z) - Continually Learning Self-Supervised Representations with Projected
Functional Regularization [39.92600544186844]
近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。
これらの手法は、新たな知識を段階的に取得することができない -- 実際、主にIDデータによる事前学習フェーズとしてのみ使用される。
従来の知識を忘れないように,機能正規化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-30T11:59:23Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。