論文の概要: A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models
- arxiv url: http://arxiv.org/abs/2406.11753v1
- Date: Mon, 17 Jun 2024 17:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:33:44.816907
- Title: A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models
- Title(参考訳): 意味的層凍結手法による言語モデルの効率的な微調整
- Authors: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang,
- Abstract要約: 下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。
パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば微細化のためのthithowに焦点を当てるが、微細化のためのtextitwhereの問題を無視している。
- 参考スコア(独自算出の注目度): 32.178931149612644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning language models (LMs) is crucial for adapting the models to downstream data and tasks. However, full finetuning is usually costly. Existing work, such as parameter-efficient finetuning (PEFT), often focuses on \textit{how to finetune} but neglects the issue of \textit{where to finetune}. As a pioneering work on answering where to finetune (at the layer level), we conduct a semantic analysis of the LM inference process. We first propose a virtual transition of the latent representation and then trace its factual transition. Based on the deviation in transitions, we estimate the gain of finetuning each model layer, and further, narrow down the scope for finetuning. We perform extensive experiments across well-known LMs and datasets. The results show that our approach is effective and efficient, and outperforms the existing baselines. Our approach is orthogonal to existing efficient techniques, such as PEFT methods, offering practical values on LM finetuning.
- Abstract(参考訳): 下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。
しかし、完全な微調整は通常コストがかかる。
パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば \textit{how to finetune} にフォーカスするが、 \textit{where to finetune} の問題を無視している。
層レベルでの)きめ細やかな解答のパイオニアとして、私たちはLM推論プロセスのセマンティック分析を行います。
まず、潜在表現の仮想遷移を提案し、その実際の遷移を辿る。
遷移の偏りに基づいて、各モデル層を微調整する際の利得を推定し、さらに、微調整のスコープを狭める。
我々は、よく知られたLMとデータセットにまたがる広範な実験を行う。
その結果,本手法は有効かつ効率的であり,既存のベースラインよりも優れていることがわかった。
提案手法は,PEFT法などの既存の効率的な手法と直交し,LMファインタニングの実践的価値を提供する。
関連論文リスト
- PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning [17.73193523921637]
大規模言語モデル(LLM)は、多様な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
LLMは通常、制御された微調整(SFT)を行い、その後、下流のアプリケーションで使用できるように調整する。
本稿では,PLMファインチューニングのための新しいPArallelトレーニングパラダイムであるPAFTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T20:11:37Z) - Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。
我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。
以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-21T20:08:52Z) - When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method [56.571951345048355]
大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。
LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
論文 参考訳(メタデータ) (2024-02-27T04:18:49Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [102.92240148504774]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。
優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。
我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文 参考訳(メタデータ) (2023-11-10T18:59:54Z) - Ahead-of-Time P-Tuning [0.2538209532048867]
Ahead-of-Time (AoT) P-Tuningは、事前学習言語モデル(LM)のためのパラメータ効率の良い微調整法である
我々は,RoBERTaモデルとDeBERTaモデルを用いて,GLUEおよびSuperGLUEベンチマークデータセットのAoT P-Tuningを評価する。
提案手法は, 1 つのバックボーン LM を用いてマルチタスクの推論を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:24:53Z) - Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文 参考訳(メタデータ) (2023-03-19T17:30:44Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。