論文の概要: ELLA: Efficient Lifelong Learning for Adapters in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.02232v1
- Date: Mon, 05 Jan 2026 15:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.257693
- Title: ELLA: Efficient Lifelong Learning for Adapters in Large Language Models
- Title(参考訳): ELLA:大規模言語モデルにおける適応者のための効率的な生涯学習
- Authors: Shristi Das Biswas, Yue Zhang, Anwesan Pal, Radhika Bhargava, Kaushik Roy,
- Abstract要約: 大規模言語モデル(LLM)は、連続的な学習環境において、新しいタスクに逐次適応する際、深刻な破滅的な忘れを被る。
本稿では,選択部分空間デコリレーションの原理に基づくトレーニングフレームワークであるELLAを紹介する。
ELLAは、過去の更新の構造を明示的に特徴づけ、高エネルギーでタスク固有の方向に沿ってアライメントを罰する。
3つの人気のあるベンチマークで最先端のCL性能を達成し、相対的精度は9.6%、メモリフットプリントは35倍になる。
- 参考スコア(独自算出の注目度): 12.489255789379817
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) suffer severe catastrophic forgetting when adapted sequentially to new tasks in a continual learning (CL) setting. Existing approaches are fundamentally limited: replay-based methods are impractical and privacy-violating, while strict orthogonality-based methods collapse under scale: each new task is projected onto an orthogonal complement, progressively reducing the residual degrees of freedom and eliminating forward transfer by forbidding overlap in shared representations. In this work, we introduce ELLA, a training framework built on the principle of selective subspace de-correlation. Rather than forbidding all overlap, ELLA explicitly characterizes the structure of past updates and penalizes alignments along their high-energy, task-specific directions, while preserving freedom in the low-energy residual subspaces to enable transfer. Formally, this is realized via a lightweight regularizer on a single aggregated update matrix. We prove this mechanism corresponds to an anisotropic shrinkage operator that bounds interference, yielding a penalty that is both memory- and compute-constant regardless of task sequence length. ELLA requires no data replay, no architectural expansion, and negligible storage. Empirically, it achieves state-of-the-art CL performance on three popular benchmarks, with relative accuracy gains of up to $9.6\%$ and a $35\times$ smaller memory footprint. Further, ELLA scales robustly across architectures and actively enhances the model's zero-shot generalization performance on unseen tasks, establishing a principled and scalable solution for constructive lifelong LLM adaptation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、連続学習(CL)環境において、新しいタスクに順応する際、深刻な破滅的な忘れを被る。
既存の手法は基本的に制限されており、リプレイベースの手法は非現実的でプライバシーを侵害するが、厳密な直交に基づく手法は大規模に崩壊する。
本研究では,選択部分空間デコリレーションの原理に基づくトレーニングフレームワークであるELLAを紹介する。
すべてのオーバーラップを禁止するのではなく、ELLAは過去の更新の構造を明示的に特徴付け、高エネルギーのタスク固有の方向に沿ってアライメントをペナライズすると同時に、低エネルギーの残余部分空間における自由を保ち、転送を可能にする。
正式には、これは単一の集約された更新行列上の軽量な正則化器によって実現される。
我々は,この機構が,タスクシーケンス長にかかわらずメモリと計算定数の両方のペナルティを生じる干渉を束縛する異方性収縮演算子に対応することを証明した。
ELLAは、データ再生、アーキテクチャ拡張、無視可能なストレージを必要としない。
実証的には、3つの人気のあるベンチマークで最先端のCL性能を達成し、相対的な精度は9.6\%、35\times$より小さいメモリフットプリントである。
さらに、ELAはアーキテクチャ全体にわたって堅牢にスケールし、目に見えないタスクに対してゼロショットの一般化性能を積極的に向上させ、構築寿命のLLM適応のための原則付きスケーラブルなソリューションを確立する。
関連論文リスト
- The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning [12.165720711684758]
MLLMにおけるCVITに適した,高効率なアーキテクチャ拡張手法LiLoRAを紹介する。
LiLoRAはタスク間でLoRA行列Aを共有して冗長性を低減し、タスク固有のパラメータを最小化するために行列Bに追加の低ランク分解を適用し、コサイン規則化された安定性損失を組み込んで時間の経過とともに一貫性を維持する。
実験の結果,LiLoRAは逐次的タスク学習において一貫した性能を実現し,既存の手法に比べてパラメータ効率を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-08-08T10:32:38Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [14.321060805197874]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Achieving Byzantine-Resilient Federated Learning via Layer-Adaptive Sparsified Model Aggregation [7.200910949076064]
フェデレートラーニング(FL)は、複数のクライアントがローカルデータを共有せずに、協調的にモデルをトレーニングすることを可能にする。
しかし、FLシステムは、悪質なモデルの更新をアップロードすることでモデルのトレーニングプロセスを妨害することを目的とした、よく設計されたByzantine攻撃に対して脆弱である。
本稿では,階層的適応アグリゲーションと事前アグリゲーション・スパリフィケーションを組み合わせたLayer-Adaptive Sparsified Model Aggregation(LASA)手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T19:28:35Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。