論文の概要: Spurious Forgetting in Continual Learning of Language Models
- arxiv url: http://arxiv.org/abs/2501.13453v1
- Date: Thu, 23 Jan 2025 08:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:41.883901
- Title: Spurious Forgetting in Continual Learning of Language Models
- Title(参考訳): 言語モデルの継続的な学習におけるすっきりとした留意
- Authors: Junhao Zheng, Xidi Cai, Shengjie Qiu, Qianli Ma,
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、継続学習において複雑な現象を呈している。
大規模な訓練にもかかわらず、モデルは大幅な性能低下を経験する。
本研究では,このような性能低下が,真の知識喪失よりもタスクアライメントの低下を反映していることが示唆された。
- 参考スコア(独自算出の注目度): 20.0936011355535
- License:
- Abstract: Recent advancements in large language models (LLMs) reveal a perplexing phenomenon in continual learning: despite extensive training, models experience significant performance declines, raising questions about task alignment and underlying knowledge retention. This study first explores the concept of "spurious forgetting", proposing that such performance drops often reflect a decline in task alignment rather than true knowledge loss. Through controlled experiments with a synthesized dataset, we investigate the dynamics of model performance during the initial training phases of new tasks, discovering that early optimization steps can disrupt previously established task alignments. Our theoretical analysis connects these shifts to orthogonal updates in model weights, providing a robust framework for understanding this behavior. Ultimately, we introduce a Freezing strategy that fix the bottom layers of the model, leading to substantial improvements in four continual learning scenarios. Our findings underscore the critical distinction between task alignment and knowledge retention, paving the way for more effective strategies in continual learning.
- Abstract(参考訳): 大規模言語モデル(LLMs)の最近の進歩は、広範囲な訓練にもかかわらず、モデルは大きなパフォーマンス低下を経験し、タスクアライメントや基礎となる知識保持に関する疑問を提起している。
この研究はまず「すっぱい忘れ」の概念を探求し、そのような性能低下は真の知識喪失よりもタスクアライメントの低下を反映していると主張している。
合成データセットを用いた制御実験により、新しいタスクの初期訓練段階におけるモデル性能のダイナミクスを解明し、初期最適化ステップが以前に確立されたタスクアライメントを阻害することを発見した。
我々の理論的分析は、これらのシフトをモデル重みの直交的な更新と結びつけ、この振る舞いを理解するための堅牢なフレームワークを提供する。
最終的に、モデルの底層を修正するフリーズ戦略を導入し、4つの連続学習シナリオで大幅に改善しました。
本研究は,タスクアライメントと知識保持の区別を重要視し,継続的な学習におけるより効果的な戦略の道を開いた。
関連論文リスト
- Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Advancing continual lifelong learning in neural information retrieval: definition, dataset, framework, and empirical evaluation [3.2340528215722553]
連続的なニューラル情報検索の系統的なタスク定式化を示す。
包括的連続神経情報検索フレームワークを提案する。
経験的評価は,提案フレームワークが神経情報検索における破滅的な忘れ込みを効果的に防止できることを示唆している。
論文 参考訳(メタデータ) (2023-08-16T14:01:25Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Online Continual Learning via the Knowledge Invariant and Spread-out
Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。
知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。
提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文 参考訳(メタデータ) (2023-02-02T04:03:38Z) - Dissecting Continual Learning a Structural and Data Analysis [0.0]
連続学習(Continuous Learning)は、生涯学習が可能なアルゴリズムを考案するための分野である。
ディープラーニングの手法は、モデル化されたデータがその後の学習セッションでかなりの分散シフトを受けていない場合、印象的な結果が得られる。
このようなシステムをこのインクリメンタルな設定に公開すると、パフォーマンスは急速に低下します。
論文 参考訳(メタデータ) (2023-01-03T10:37:11Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。