論文の概要: LACE: Loss-Adaptive Capacity Expansion for Continual Learning
- arxiv url: http://arxiv.org/abs/2603.28611v1
- Date: Mon, 30 Mar 2026 15:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.498909
- Title: LACE: Loss-Adaptive Capacity Expansion for Continual Learning
- Title(参考訳): LACE: 継続的な学習のための損失適応能力拡張
- Authors: Shivnath Tathe,
- Abstract要約: LACE(Loss-Adaptive Capacity Expansion)は、トレーニング中にモデルの表現能力を拡張するオンラインメカニズムである。
LACEはラベルもリプレイバッファも外部コントローラも必要とせず、リソース制約下でのデバイス上での継続的な学習に適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fixed representational capacity is a fundamental constraint in continual learning: practitioners must guess an appropriate model width before training, without knowing how many distinct concepts the data contains. We propose LACE (Loss-Adaptive Capacity Expansion), a simple online mechanism that expands a model's representational capacity during training by monitoring its own loss signal. When sustained loss deviation exceeds a threshold - indicating that the current capacity is insufficient for newly encountered data - LACE adds new dimensions to the projection layer and trains them jointly with existing parameters. Across synthetic and real-data experiments, LACE triggers expansions exclusively at domain boundaries (100% boundary precision, zero false positives), matches the accuracy of a large fixed-capacity model while starting from a fraction of its dimensions, and produces adapter dimensions that are collectively critical to performance (3% accuracy drop when all adapters removed). We further demonstrate unsupervised domain separation in GPT-2 activations via layer-wise clustering, showing a U-shaped separability curve across layers that motivates adaptive capacity allocation in deep networks. LACE requires no labels, no replay buffers, and no external controllers, making it suitable for on-device continual learning under resource constraints.
- Abstract(参考訳): トレーニングの前に適切なモデル幅を推測しなければならないが、そのデータに何つの異なる概念が含まれているかは分からない。
LACE(Loss-Adaptive Capacity Expansion)は,学習中のモデル表現能力を拡張するシンプルなオンラインメカニズムである。
持続的損失偏差がしきい値を超えた場合 - 新たに遭遇したデータに現在の容量が不十分であることを示す - LACEはプロジェクション層に新しい次元を追加し、既存のパラメータと共同でトレーニングする。
合成および実データ実験全体において、LACEはドメイン境界での展開(100%境界精度、ゼロ偽陽性)をトリガーし、その次元のごく一部から始めて大きな固定容量モデルの精度と一致し、全体として性能に重要なアダプタ次元を生成する(すべてのアダプタが取り除かれると、3%の精度低下)。
さらに,レイヤワイドクラスタリングによるGPT-2アクティベーションにおける非教師なし領域分離を実証し,深層ネットワークにおける適応キャパシティ割り当ての動機となる層間のU字型の分離性曲線を示す。
LACEはラベルもリプレイバッファも外部コントローラも必要とせず、リソース制約下でのデバイス上での継続的な学習に適している。
関連論文リスト
- Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation [69.7036779439312]
ブラックボックスドメイン適応は、非常に実用的で非常に困難な設定である。
ブラックボックスソースモデルに埋め込まれた特定の知識を活用するサブネットワーク整合モデル(DDSR)を用いた二重蒸留法を提案する。
我々の手法は、ソースデータやモデルの使用を含む、最先端の手法に対する一貫した改善を実証する。
論文 参考訳(メタデータ) (2026-03-24T07:54:19Z) - The Golden Subspace: Where Efficiency Meets Generalization in Continual Test-Time Adaptation [86.83038620308423]
Continual Test-Time Adaptation (CTTA)は、ソースデータにアクセスすることなく、分散シフトの下でラベルなしのデータストリームへのオンライン適応を可能にすることを目的としている。
我々は,GOLD ( Guided Online Low-rank Directional Adaptation) を提案する。これは,Goldenサブスペースに機能を投影する軽量アダプタを用いて,サブスペースがAGOPを介して動的に更新される間に,コンパクトなスケーリングベクトルを学習する。
論文 参考訳(メタデータ) (2026-03-23T12:48:38Z) - Efficient Learning of Sparse Representations from Interactions [9.381985901356922]
従来の密集層の代わりに高次元スパース埋め込み層を学習するためのトレーニング戦略を提案する。
製品グレードの協調フィルタリングオートエンコーダELSAを改良し,推奨精度を損なうことなく,最大10倍の埋め込みサイズを実現した。
論文 参考訳(メタデータ) (2026-02-10T16:09:58Z) - FG-OrIU: Towards Better Forgetting via Feature-Gradient Orthogonality for Incremental Unlearning [24.195588298488314]
既存の手法は、特徴レベルと勾配レベルの両方に明示的な制約を伴わずに、パラメータを抑えるか、知識を混乱させる。
FG-OrIU (textbfFeaturetextbfGradient textbfOrthogonality for textbfIncrementaltextbfUnlearning)を提案する。
Singular Value Decomposition (SVD)を介して特徴空間を分解し、忘れられたり残ったクラス特徴を別々の部分空間に分離する。
論文 参考訳(メタデータ) (2026-01-20T04:05:13Z) - ELLA: Efficient Lifelong Learning for Adapters in Large Language Models [12.489255789379817]
大規模言語モデル(LLM)は、連続的な学習環境において、新しいタスクに逐次適応する際、深刻な破滅的な忘れを被る。
本稿では,選択部分空間デコリレーションの原理に基づくトレーニングフレームワークであるELLAを紹介する。
ELLAは、過去の更新の構造を明示的に特徴づけ、高エネルギーでタスク固有の方向に沿ってアライメントを罰する。
3つの人気のあるベンチマークで最先端のCL性能を達成し、相対的精度は9.6%、メモリフットプリントは35倍になる。
論文 参考訳(メタデータ) (2026-01-05T15:58:08Z) - Continuous Knowledge-Preserving Decomposition with Adaptive Layer Selection for Few-Shot Class-Incremental Learning [73.59672160329296]
CKPD-FSCILは、事前訓練された重量の未使用容量を解放する統合フレームワークである。
本手法は,適応性と知識保持の両面で,最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-01-09T07:18:48Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。