論文の概要: Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories
- arxiv url: http://arxiv.org/abs/2606.03979v1
- Date: Tue, 02 Jun 2026 17:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.241761
- Title: Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories
- Title(参考訳): 睡眠が必要な言語モデル: 記憶の自己修正と統合を学ぶ
- Authors: Ali Behrouz, Farnoosh Hashemi, Vahab Mirrokni,
- Abstract要約: 我々は、モデルが短期的な脆弱な記憶をリプレイで安定した長期的知識に継続的に学習し、蒸留することを可能にする'Sleep'パラダイムを導入する。
人間の学習プロセスに触発されて、我々は、知識探索のための新しい一般化蒸留プロセス(すなわち、オンライン蒸留と強化学習の組み合わせ)を提示する。
長期学習, 継続学習, 知識の取り込み, および数発の一般化タスクに関する実験は, 睡眠ステージの重要性を裏付けるものである。
- 参考スコア(独自算出の注目度): 43.8851217839697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific shallow models to more general deep Large Language Models (LLMs). Despite showing promising results in tasks that require instant prediction or in-context learning, existing models lack the ability to continually learn and effectively transfer their temporal in-context knowledge to their long-term parameters. Inspired by human learning process, we introduce a ''Sleep'' paradigm that allows the models to continually learn, distill their short-term fragile memories into stable long-term knowledge with replay, and recursively improve themselves with ''Dreaming'' process. In more detail, sleep consists of two stages: (1) Memory Consolidation: an upward distillation process, called Knowledge Seeding, where the memories of a smaller-self are distilled into a larger network to provide more capacity while preserving the knowledge. As a proof of concept, we present a new Generalized Distillation process for {Knowledge Seeding} (i.e., the combination of on-policy distillation with Reinforcement Learning (RL)-based imitation learning); (2) Dreaming: a self-improvement phase, where the model uses RL to generate a curriculum of synthetic data to rehearse new knowledge and refine existing capabilities without human supervision. Our experiments on long-horizon, continual learning, knowledge incorporation, and few-shot generalization tasks support the importance of the sleep stage.
- Abstract(参考訳): 過去数十年間、タスク固有の浅いモデルに関する初期の研究からより汎用的な大規模言語モデル(LLM)まで、機械学習アルゴリズムの設計において大きな進歩が見られた。
インスタント予測やコンテキスト内学習を必要とするタスクにおいて有望な結果を示す一方で、既存のモデルは、時間的文脈内知識を長期的パラメータに継続的に学習し、効果的に転送する能力が欠如している。
人間の学習プロセスにインスパイアされた「Sleep」パラダイムを導入し、モデルが継続的に学習し、短時間の脆弱な記憶をリプレイで安定した長期的知識に蒸留し、"Dreaming"プロセスで再帰的に改善する。
より詳しくは、睡眠は2つの段階から構成される: (1) 記憶の強化: 知識シーディングと呼ばれる上向きの蒸留プロセスで、より小さな自分自身の記憶をより大きなネットワークに蒸留し、知識を維持しながらより多くの能力を提供する。
概念実証として,<knowledge Seeding} の一般蒸留プロセス(すなわち,オンライン蒸留と強化学習(Reinforcement Learning, RL)に基づく模倣学習の組み合わせ)を新たに提案する。(2)ドリーミング:自己改善段階において,モデルがRLを用いて合成データのカリキュラムを生成し,人間の監督なしに新たな知識をリハーサルし,既存の能力を洗練させる。
長期学習, 継続学習, 知識の取り込み, および数発の一般化タスクに関する実験は, 睡眠ステージの重要性を裏付けるものである。
関連論文リスト
- Nested Learning: The Illusion of Deep Learning Architectures [57.41377373511876]
我々はNested Learning(NL)と呼ばれる新しい学習パラダイムを提案する。
表現的一般化は、実際には、深い記憶と/またはより強力な学習規則を持つ一般化である。
本稿では、長期記憶の伝統的な視点を一般化するメモリシステムのための新しい連続体を提案する。
論文 参考訳(メタデータ) (2025-12-31T07:59:43Z) - Semi-parametric Memory Consolidation: Towards Brain-like Deep Continual Learning [59.35015431695172]
本稿では,半パラメトリックメモリと覚醒・睡眠統合機構を統合したバイオミメティック連続学習フレームワークを提案する。
提案手法は,実世界の挑戦的連続学習シナリオにおいて,先行知識を維持しつつ,新しいタスクにおけるディープニューラルネットワークの高性能維持を可能にする。
論文 参考訳(メタデータ) (2025-04-20T19:53:13Z) - Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism
of Language Models [49.39276272693035]
大規模事前学習型言語モデルは、顕著な記憶能力を示している。
プレトレーニングのないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされていることが長年観察されてきた。
1)バニラ言語モデルは忘れがちである; 2)事前学習は暗黙の言語モデルにつながる; 3)知識の妥当性と多様化は記憶形成に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-16T03:50:38Z) - Lifelong Person Re-Identification via Knowledge Refreshing and
Consolidation [35.43406281230279]
Lifelong person re-identification (LReID)の鍵となる課題は、古い知識を段階的に保存し、徐々に新しい能力をシステムに追加する方法である。
体性感覚性新皮質と海馬が協調して記憶統合を行う人間の認知の生物学的過程に着想を得て,我々は知識リフレッシュ・アンド・コンソリデーション(KRC)と呼ばれるモデルを構築した。
より具体的には、双方向の知識伝達を可能にするための知識リフレッシュ方式に知識リハーサル機構が組み込まれている。
論文 参考訳(メタデータ) (2022-11-29T13:39:45Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。