論文の概要: PLATE: Plasticity-Tunable Efficient Adapters for Geometry-Aware Continual Learning
- arxiv url: http://arxiv.org/abs/2602.03846v1
- Date: Tue, 03 Feb 2026 18:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.652821
- Title: PLATE: Plasticity-Tunable Efficient Adapters for Geometry-Aware Continual Learning
- Title(参考訳): PLATE:幾何学習のための塑性可変能率適応器
- Authors: Romain Cosentino,
- Abstract要約: 従来のタスクデータへのアクセスを必要としない事前学習モデルの連続学習法を開発した。
冗長性は 自然の偏見を与えます
textscPLATEは、可塑性保持トレードオフを明示的に制御する。
- 参考スコア(独自算出の注目度): 1.8985807299725523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a continual learning method for pretrained models that \emph{requires no access to old-task data}, addressing a practical barrier in foundation model adaptation where pretraining distributions are often unavailable. Our key observation is that pretrained networks exhibit substantial \emph{geometric redundancy}, and that this redundancy can be exploited in two complementary ways. First, redundant neurons provide a proxy for dominant pretraining-era feature directions, enabling the construction of approximately protected update subspaces directly from pretrained weights. Second, redundancy offers a natural bias for \emph{where} to place plasticity: by restricting updates to a subset of redundant neurons and constraining the remaining degrees of freedom, we obtain update families with reduced functional drift on the old-data distribution and improved worst-case retention guarantees. These insights lead to \textsc{PLATE} (\textbf{Pla}sticity-\textbf{T}unable \textbf{E}fficient Adapters), a continual learning method requiring no past-task data that provides explicit control over the plasticity-retention trade-off. PLATE parameterizes each layer with a structured low-rank update $ΔW = B A Q^\top$, where $B$ and $Q$ are computed once from pretrained weights and kept frozen, and only $A$ is trained on the new task. The code is available at https://github.com/SalesforceAIResearch/PLATE.
- Abstract(参考訳): 本研究では,従来のタスクデータへのアクセスを必要としない事前学習モデルの連続学習手法を開発し,事前学習された分布がしばしば利用できない基礎モデル適応における現実的な障壁に対処する。
我々のキーとなる観察は、事前学習されたネットワークは相当な 'emph{geometric redundancy} を示し、この冗長性は2つの相補的な方法で活用できるということである。
第一に、冗長ニューロンは支配的な事前訓練前の特徴方向のプロキシを提供し、事前訓練された重みから直接、ほぼ保護された更新部分空間を構築することができる。
第2に、冗長性は可塑性を付与する自然なバイアスを与える: 冗長ニューロンのサブセットへの更新を制限し、残りの自由度を制限することにより、古いデータ分布の関数的ドリフトを低減し、最悪の保持保証を改善した更新ファミリを得る。
これらの知見は、可塑性保持トレードオフを明示的に制御する過去のデータを必要としない連続的な学習方法である \textsc{PLATE} (\textbf{Pla}sticity-\textbf{T}unable \textbf{E}fficient Adapters) に導かれる。
PLATEは、構造化された低ランク更新$ΔW = B A Q^\top$で各レイヤをパラメータ化します。
コードはhttps://github.com/SalesforceAIResearch/PLATEで公開されている。
関連論文リスト
- Basis-Oriented Low-rank Transfer for Few-Shot and Test-Time Adaptation [10.804106052326402]
厳密なデータと計算予算の下で、大きな事前訓練されたモデルを未確認のタスクに適用することは、依然として困難である。
本稿では,既存の微調整モデルを再利用し,そのサブ空間内に適応するフレームワークBOLTを提案する。
本結果は,タスクインフォームド部分空間への制約適応が,目に見えないタスク転送の効果的な代替手段となることを示す。
論文 参考訳(メタデータ) (2025-12-02T06:00:16Z) - Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文 参考訳(メタデータ) (2025-10-20T16:15:03Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Not All Models Are Equal: Predicting Model Transferability in a
Self-challenging Fisher Space [51.62131362670815]
本稿では、トレーニング済みのディープニューラルネットワークのランク付けと、下流タスクにおける最も転送可能なニューラルネットワークのスクリーニングの問題に対処する。
textbfSelf-challenging textbfFisher textbfDiscriminant textbfAnalysis (textbfSFDA)と呼ばれる新しい転送可能性指標を提案する。
論文 参考訳(メタデータ) (2022-07-07T01:33:25Z) - Continual Test-Time Domain Adaptation [94.51284735268597]
テスト時ドメイン適応は、ソースデータを使用しずに、ソース事前訓練されたモデルをターゲットドメインに適応することを目的としている。
CoTTAは実装が容易で、市販の事前訓練モデルに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2022-03-25T11:42:02Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z) - Neural Network Retraining for Model Serving [32.857847595096025]
我々は、推論における新しいデータの継続的な流れに対応するために、ニューラルネットワークモデルの漸進的(再)トレーニングを提案する。
破滅的な再トレーニングと効率的な再トレーニングの2つの課題に対処する。
論文 参考訳(メタデータ) (2020-04-29T13:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。