Fugu-MT 論文翻訳(概要): Not All Adapters Matter: Selective Adapter Freezing for Memory-Efficient Fine-Tuning of Language Models

論文の概要: Not All Adapters Matter: Selective Adapter Freezing for Memory-Efficient Fine-Tuning of Language Models

arxiv url: http://arxiv.org/abs/2412.03587v2
Date: Thu, 15 May 2025 14:39:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 14:06:35.651214
Title: Not All Adapters Matter: Selective Adapter Freezing for Memory-Efficient Fine-Tuning of Language Models
Title（参考訳）: すべてのアダプタが重要ではない: 言語モデルのメモリ効率の良い微調整のための選択型アダプタフリーズ
Authors: Hyegang Son, Yonglak Son, Changhoon Kim, Young Geun Kim,
Abstract要約: アダプタチューニングは、軽量なトレーニング可能なモジュールを導入することで、パラメータ効率の良い微調整を提供する。各アダプタはタスク性能とリソース使用量の両方に不平等に寄与することを示す。 Selective Adapter FrEezing (SAFE, Selective Adapter FrEezing) を提案する。
参考スコア（独自算出の注目度）: 10.593991842751631
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based large-scale pre-trained models achieve great success. Fine-tuning is the standard practice for leveraging these models in downstream tasks. Among the fine-tuning methods, adapter-tuning provides a parameter-efficient fine-tuning by introducing lightweight trainable modules while keeping most pre-trained parameters frozen. However, existing adapter-tuning methods still impose substantial resource usage. Through our investigation, we show that each adapter unequally contributes to both task performance and resource usage. Motivated by this insight, we propose Selective Adapter FrEezing (SAFE), which gradually freezes less important adapters early to reduce unnecessary resource usage while maintaining performance. In our experiments, SAFE reduces memory usage, computation amount, and training time by 42.85\%, 34.59\%, and 11.82\%, respectively, while achieving comparable or better task performance compared to the baseline. We also demonstrate that SAFE induces regularization effect, thereby smoothing the loss landscape, which enables the model to generalize better by avoiding sharp minima.
Abstract（参考訳）: トランスフォーマーベースの大規模事前学習モデルは大きな成功を収める。ファインチューニングは、下流タスクでこれらのモデルを活用するための標準的なプラクティスである。微調整方法の中で、アダプタチューニングは、トレーニング済みのほとんどのパラメータを凍結しながら、軽量なトレーニング可能なモジュールを導入することで、パラメータ効率のよい微調整を提供する。しかし、既存のアダプタチューニング手法は依然としてかなりのリソース使用を課している。調査の結果,各アダプタはタスク性能とリソース使用量の両方に不平等に寄与していることがわかった。そこで本研究では,Selective Adapter FrEezing (SAFE, Selective Adapter FrEezing)を提案する。実験では, メモリ使用量, 計算量, トレーニング時間をそれぞれ42.85\%, 34.59\%, 11.82\%削減し, ベースラインと比較してタスク性能が向上した。また,SAFEが正規化効果を誘導し,損失景観の平滑化を図った。

関連論文リスト

Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。 Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文参考訳（メタデータ） (2024-07-28T19:18:59Z)
CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文参考訳（メタデータ） (2024-06-07T19:10:35Z)
Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文参考訳（メタデータ） (2024-05-09T01:40:38Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning [20.68925288222065]
スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。 MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。 MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
論文参考訳（メタデータ） (2023-12-05T17:50:55Z)
Domain Generalization Using Large Pretrained Models with Mixture-of-Adapters [35.834509022013435]
ドメイン一般化(DG)アルゴリズムは、異なる分布上で訓練されたモデルの性能を維持することを目的としている。我々は、Mix of-Adapters (MoA) と呼ばれる、Mix of-Exertベースのアダプタ微調整法を提案する。
論文参考訳（メタデータ） (2023-10-17T07:01:24Z)
Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文参考訳（メタデータ） (2023-10-10T01:04:15Z)
TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models [32.83440439290383]
TAIL(Task-specific Adapters for Learning)は,新しい制御タスクに効率的に適応するためのフレームワークである。言語領域におけるパラメータ効率の良い微調整の最近の進歩に触発されて,効率的な微調整技術を探究する。大規模言語条件の操作タスクにおける実験から,LoRAを用いたTAILは適応後最高の性能が得られることが示唆された。
論文参考訳（メタデータ） (2023-10-09T17:49:50Z)
Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。 RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文参考訳（メタデータ） (2023-02-16T06:14:15Z)
CHAPTER: Exploiting Convolutional Neural Network Adapters for Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文参考訳（メタデータ） (2022-12-01T08:50:12Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
AdapterBias: Parameter-efficient Token-dependent Representation Shift for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文参考訳（メタデータ） (2022-04-30T16:49:41Z)
AdapterDrop: On the Efficiency of Adapters in Transformers [53.845909603631945]
大規模に事前訓練されたトランスフォーマーモデルは、微調整に計算コストがかかり、推論に時間がかかり、大きなストレージ要求がある。最近のアプローチでは、より小さなモデルをトレーニングし、モデルサイズを動的に削減し、軽量アダプタをトレーニングすることで、これらの欠点に対処している。
論文参考訳（メタデータ） (2020-10-22T17:49:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。