Fugu-MT 論文翻訳(概要): Make Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning

論文の概要: Make Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning

arxiv url: http://arxiv.org/abs/2306.00477v4
Date: Thu, 19 Oct 2023 16:03:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 19:59:31.872665
Title: Make Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning
Title（参考訳）: 事前学習モデルの可逆化:パラメータからメモリ効率の良い微調整へ
Authors: Baohao Liao, Shaomu Tan, Christof Monz
Abstract要約: 本稿では,事前学習した言語モデルに対するメモリ効率のよい微調整(MEFT)を提案する。 MEFTはアダプタをPLMに挿入し、PLMの開始点を保ち、追加の事前訓練なしで可逆的にすることができる。 MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
参考スコア（独自算出の注目度）: 6.451743797015637
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parameter-efficient fine-tuning (PEFT) of pre-trained language models (PLMs) has emerged as a highly successful approach, with training only a small number of parameters without sacrificing performance and becoming the de-facto learning paradigm with the increasing size of PLMs. However, existing PEFT methods are not memory-efficient, because they still require caching most of the intermediate activations for the gradient calculation, akin to fine-tuning. One effective way to reduce the activation memory is to apply a reversible model, so the intermediate activations are not necessary to be cached and can be recomputed. Nevertheless, modifying a PLM to its reversible variant is not straightforward, since the reversible model has a distinct architecture from the currently released PLMs. In this paper, we first investigate what is a key factor for the success of existing PEFT methods, and realize that it's essential to preserve the PLM's starting point when initializing a PEFT method. With this finding, we propose memory-efficient fine-tuning (MEFT) that inserts adapters into a PLM, preserving the PLM's starting point and making it reversible without additional pre-training. We evaluate MEFT on the GLUE benchmark and five question-answering tasks with various backbones, BERT, RoBERTa, BART and OPT. MEFT significantly reduces the activation memory up to 84% of full fine-tuning with a negligible amount of trainable parameters. Moreover, MEFT achieves the same score on GLUE and a comparable score on the question-answering tasks as full fine-tuning. A similar finding is also observed for the image classification task.
Abstract（参考訳）: プレトレーニング言語モデル(PLM)のパラメータ効率細調整(PEFT)は、性能を犠牲にすることなく少数のパラメータのみをトレーニングし、PLMのサイズを増大させるデファクト学習パラダイムとなるという、非常に成功したアプローチとして登場した。しかし、既存のpeftメソッドは、グラデーション計算のための中間アクティベーションの大部分をキャッシュする必要があるため、メモリ効率は高くない。アクティベーションメモリを減らす効果的な方法の一つは可逆モデルを適用することであるので、中間のアクティベーションはキャッシュする必要がなく、再計算できる。しかしながら、可逆的なモデルが現在リリースされているPLMとは異なるアーキテクチャを持つため、PLMを可逆的な変種に変更することは簡単ではない。本稿では,既存のPEFT法の成功の鍵となる要因を最初に検討し,PEFT法の初期化においてPLMの開始点を保存することが重要であることを認識した。そこで本研究では, PLM にアダプタを挿入し, PLM の開始点を保存し, 追加の事前学習なしに可逆化するメモリ効率向上ファインタニング (MEFT) を提案する。 GLUEベンチマークのMEFTとBERT,RoBERTa,BART,OPTの5つのバックボーンを用いた質問応答タスクの評価を行った。 MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。さらに, MEFT は GLUE のスコアと質問応答タスクのスコアをフル微調整と同等に達成している。画像分類作業にも同様の発見が観察されている。

関連論文リスト

From LLMs to Edge: Parameter-Efficient Fine-Tuning on Edge Devices [3.4233698915405544]
本稿では,資源制約されたエッジ環境に通常デプロイされる畳み込みアーキテクチャのPEFT手法をベンチマークし,解析する。評価されたPEFT法は, 深部分離可能な畳み込みアーキテクチャに適用した場合, メモリ効率が半減することがわかった。
論文参考訳（メタデータ） (2025-07-31T13:23:21Z)
Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文参考訳（メタデータ） (2025-02-05T20:47:44Z)
Interweaving Memories of a Siamese Large Language Model [9.60026229476874]
本稿では,シームズ大言語モデルの記憶を織り込むモデル非依存のPEFTフレームワークを提案する。 IMSMは背骨PEFT法と同等の時間と空間効率を維持している。
論文参考訳（メタデータ） (2024-12-23T08:33:47Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。 SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文参考訳（メタデータ） (2024-10-09T19:03:52Z)
FPT+: A Parameter and Memory Efficient Transfer Learning Method for High-resolution Medical Image Classification [1.5791081894226173]
FPT+(Fun-fine Prompt Tuning plus)は、高解像度の医用画像分類のために設計されたPETL法である。 FPT+は、軽量なサイドネットワークをトレーニングし、大規模な事前学習モデルから事前学習された知識にアクセスすることによって、転送学習を行う。実験の結果、FPT+は他のPETL法よりも優れており、学習可能なパラメータの1.03%とViT-Bモデル全体を微調整するために必要なメモリの3.18%しか使用していない。
論文参考訳（メタデータ） (2024-08-05T12:33:07Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition [7.229494183462913]
微調整後の例外的なパフォーマンスにもかかわらず、プレトレーニング言語モデル(PLM)はプライバシー上の懸念から重大な課題に直面している。本論文では,フェデレートラーニング(FL)を微調整PLMとみなす。 1つの有望な解決策はパラメータ効率細調整(PEFT)をFLに活用することであり、完全なパラメータ細調整(FFT)よりもはるかに小さなパラメータセットを訓練する。
論文参考訳（メタデータ） (2024-04-29T16:42:26Z)
Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。 LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文参考訳（メタデータ） (2024-02-06T14:03:15Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
Frustratingly Simple Memory Efficiency for Pre-trained Language Models via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文参考訳（メタデータ） (2023-09-15T19:00:00Z)
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文参考訳（メタデータ） (2023-08-28T05:38:43Z)
Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文参考訳（メタデータ） (2023-04-04T16:14:39Z)
Rethinking Efficient Tuning Methods from a Unified Perspective [34.67645496324432]
我々はPETLの設計パラダイムを再検討し、パラメータ効率の伝達学習のための統一的なフレームワークU-Tuningを導出する。 U-Tuningフレームワークは、既存の手法を同時に包含し、パラメータ効率の移行学習のための新しいアプローチを導出することができる。
論文参考訳（メタデータ） (2023-03-01T17:38:03Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。