論文の概要: Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models
- arxiv url: http://arxiv.org/abs/2505.19943v1
- Date: Mon, 26 May 2025 13:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.445317
- Title: Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models
- Title(参考訳): 凍結を超えて:スパースチューニングは、事前学習モデルによる継続的な学習において可塑性を高める
- Authors: Huan Zhang, Fan Lyu, Shuyu Dong, Shenghua Fan, Yujin Zheng, Dingwen Wang,
- Abstract要約: 事前訓練されたモデルによる継続的な学習は、シーケンシャルなタスクにまたがる効率的な適応を大いに約束する。
既存のアプローチはPTMを凍結し、プロンプトやアダプタのような補助モジュールに依存している。
MIST(Mutual Information-Guided Sparse Tuning)は,PTMパラメータのサブセットを選択的に更新するプラグイン・アンド・プレイ方式である。
- 参考スコア(独自算出の注目度): 10.904981532789824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Learning with Pre-trained Models holds great promise for efficient adaptation across sequential tasks. However, most existing approaches freeze PTMs and rely on auxiliary modules like prompts or adapters, limiting model plasticity and leading to suboptimal generalization when facing significant distribution shifts. While full fine-tuning can improve adaptability, it risks disrupting crucial pre-trained knowledge. In this paper, we propose Mutual Information-guided Sparse Tuning (MIST), a plug-and-play method that selectively updates a small subset of PTM parameters, less than 5%, based on sensitivity to mutual information objectives. MIST enables effective task-specific adaptation while preserving generalization. To further reduce interference, we introduce strong sparsity regularization by randomly dropping gradients during tuning, resulting in fewer than 0.5% of parameters being updated per step. Applied before standard freeze-based methods, MIST consistently boosts performance across diverse continual learning benchmarks. Experiments show that integrating our method into multiple baselines yields significant performance gains. Our code is available at https://github.com/zhwhu/MIST.
- Abstract(参考訳): 事前訓練されたモデルによる継続的な学習は、シーケンシャルなタスクにまたがる効率的な適応を大いに約束する。
しかし、既存のほとんどのアプローチは、PTMを凍結し、プロンプトやアダプタのような補助モジュールに依存し、モデルの可塑性を制限し、かなりの分布シフトに直面した場合、準最適一般化をもたらす。
完全な微調整は適応性を改善することができるが、重要な事前訓練された知識を妨害するリスクがある。
本稿では,PTMパラメータの小さなサブセットを選択的に更新するプラグイン・アンド・プレイ方式であるMIST(Multual Information-Guided Sparse Tuning)を提案する。
MISTは、一般化を維持しながら、効果的なタスク固有の適応を可能にする。
さらに干渉を減らすために、チューニング中に勾配をランダムに落とすことで、強い空間規則化を導入し、1ステップあたりのパラメータの0.5%以下を更新する。
標準のフリーズベースの手法に適用されるMISTは、さまざまな連続学習ベンチマークのパフォーマンスを継続的に向上させる。
実験により,本手法を複数のベースラインに統合することで,大幅な性能向上が得られた。
私たちのコードはhttps://github.com/zhwhu/MIST.comで公開されています。
関連論文リスト
- Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - SAFE: Slow and Fast Parameter-Efficient Tuning for Continual Learning with Pre-Trained Models [26.484208658326857]
継続的な学習は、過去の知識を忘れることに抵抗しながら、データストリームにおける新しい概念を漸進的に獲得することを目的としている。
強力な事前学習モデル(PTM)の台頭に伴い、インクリメンタル学習システムのトレーニングへの関心が高まっている。
論文 参考訳(メタデータ) (2024-11-04T15:34:30Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。