論文の概要: TFGN: Task-Free, Replay-Free Continual Pre-Training Without Catastrophic Forgetting at LLM Scale
- arxiv url: http://arxiv.org/abs/2605.15053v2
- Date: Fri, 15 May 2026 02:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.001999
- Title: TFGN: Task-Free, Replay-Free Continual Pre-Training Without Catastrophic Forgetting at LLM Scale
- Title(参考訳): TFGN: LLMスケールでの破滅的予測のないタスクフリー、リプレイフリー連続事前訓練
- Authors: Anurup Ganguli,
- Abstract要約: 本稿ではトランスフォーマー言語モデルのためのアーキテクチャオーバーレイであるTFGNを紹介する。
TFGNは入力条件付きパラメータ効率の更新を生成し、残りのトランスは変更しない。
我々の知る限り、TFGNはLLMスケールでの破滅的な忘れを同時に閉じる最初のアーキテクチャである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continually pre-training a large language model on heterogeneous text domains, without replay or task labels, has remained an unsolved architectural problem at LLM scale. Existing methods rely on replay buffers, task identifiers, regularization penalties that scale poorly, or sentence-classification-scale evaluation. We introduce TFGN, an architectural overlay for transformer language models that produces input-conditioned, parameter-efficient updates while leaving the rest of the transformer unchanged. On six heterogeneous text domains (Prose, Python, Math, Biomedical, Chinese, JavaScript) at 1B tokens per phase across three model scales (~398M, ~739M, ~9B) and two regimes (From-Scratch and Retrofit), TFGN achieves backward transfer of -0.007 at LLaMA 3.1 8B Retrofit, HellaSwag retention 0.506/0.504/0.510, and >=99.59% L2-orthogonal gradient separation between domain pairs - with no replay, no task IDs, no Fisher penalty. The same matrices show positive cross-domain forward transfer: held-out JavaScript PPL drops 26.8% at LLaMA-8B Retrofit and 62.0% at GPT-2 Medium From-Scratch purely from Python training. Two extensions on the same substrate close further open problems. A closed-loop meta-control layer (Extension A) reduces forgetting by an additional 81% at ~398M, mapping onto the System A and System M roles of Dupoux et al. (arXiv:2603.15381). An operator-level plan vector (Extension B) reshapes forward-pass behavior at 99.96% cosine fidelity over 30 source->target pairs. The architectural insight is a Read/Write decomposition: the forward pass is fully dense, while cross-domain parameter updates are structured so prior-domain subspaces are not written to. To our knowledge, TFGN is the first architecture that simultaneously closes catastrophic forgetting at LLM scale, realizes a closed-loop autonomous-learning meta-controller, and carries an operator-level latent planner.
- Abstract(参考訳): LLMスケールでは、リプレイやタスクラベルを使わずに、異種テキストドメイン上で大きな言語モデルを継続的に事前訓練することは未解決のアーキテクチャ問題のままである。
既存の方法は、リプレイバッファ、タスク識別子、低スケールの正規化ペナルティ、あるいは文分類スケールの評価に頼っている。
TFGNは、入力条件付きパラメータ効率の更新を生成できるトランス言語モデルのためのアーキテクチャオーバーレイである。
6つの異種テキストドメイン(Prose, Python, Math, Biomedical, Chinese, JavaScript)は、3つのモデルスケール(~398M, ~739M, ~9B)と2つのレギュレーション(From-Scratch and Retrofit)にまたがる1Bトークンで、TFGNは LLaMA 3.1 8B Retrofit, HellaSwag retention 0.506/0.504/0.510, >=99.59% L2-orthogonal gradient between domain pairs - without replay, no Task IDs, no Fisher penalty。
JavaScript PPLはLLaMA-8Bのリトロフィで26.8%、GPT-2のMedium From-Scratchで62.0%低下した。
同じ基板上の2つの拡張は、さらにオープンな問題を閉じる。
クローズドループのメタコントロール層(Extension A)は、Dupoux et al(arXiv:2603.15381)のSystem AとSystem Mにマッピングすることで、約398Mで81%のリマインドを減少させる。
演算子レベルのプランベクトル(Extension B)は、30のソース->ターゲット対に対して99.96%のコサイン忠実度でフォワードパスの挙動を再現する。
フォワードパスは完全に高密度であり、クロスドメインパラメータの更新は構造化されており、事前ドメインのサブスペースは書けない。
我々の知る限り、TFGNはLLMスケールでの破滅的な忘れを同時にクローズし、クローズドループの自律学習メタコントローラを実現し、オペレータレベルの潜在プランナーを持つ最初のアーキテクチャである。
関連論文リスト
- Learning the Signature of Memorization in Autoregressive Language Models [3.6048665052465663]
我々は,任意のコーパス上の任意のモデルを微調整することで,ラベル付きデータを無制限に生成する,最初のトランスファー可能な学習攻撃を導入する。
これにより、シャドーモデルボトルネックが取り除かれ、深層学習時代へのメンバシップ推論がもたらされる。
論文 参考訳(メタデータ) (2026-04-03T17:17:51Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers [80.19461768457622]
Elastic Latent Interface Transformer (ELIT) は、入力画像サイズを計算から切り離すための、ドロップインでDiT互換のメカニズムである。
読み取りと書き込み クロスアテンション・レイヤは空間トークンとラテントの間で情報を移動し、重要な入力領域を優先する。
ImageNet-1K 512pxでは、ELITの平均利得は35.3%、FIDおよびFDDスコアは39.6%である。
論文 参考訳(メタデータ) (2026-03-12T17:57:04Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z) - Subspace based Federated Unlearning [75.90552823500633]
フェデレート・アンラーニング(FL)は、ユーザが忘れられる権利を満たすために、特定のターゲットクライアントのFLへの貢献を取り除くことを目的としている。
既存のフェデレートされた未学習アルゴリズムでは、パラメータの更新履歴をサーバに格納する必要がある。
そこで我々は,SFUと呼ばれる,単純なyet効率のサブスペースに基づくフェデレーションアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T04:29:44Z) - S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation [6.744210626403423]
本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には、スケール対応ストリップ注意誘導特徴ピラミッドネットワーク(S$2-FPN)という軽量モデルを提案する。
我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
論文 参考訳(メタデータ) (2022-06-15T05:02:49Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。