論文の概要: A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models
- arxiv url: http://arxiv.org/abs/2406.11753v1
- Date: Mon, 17 Jun 2024 17:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:33:44.816907
- Title: A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models
- Title(参考訳): 意味的層凍結手法による言語モデルの効率的な微調整
- Authors: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang,
- Abstract要約: 下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。
パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば微細化のためのthithowに焦点を当てるが、微細化のためのtextitwhereの問題を無視している。
- 参考スコア(独自算出の注目度): 32.178931149612644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning language models (LMs) is crucial for adapting the models to downstream data and tasks. However, full finetuning is usually costly. Existing work, such as parameter-efficient finetuning (PEFT), often focuses on \textit{how to finetune} but neglects the issue of \textit{where to finetune}. As a pioneering work on answering where to finetune (at the layer level), we conduct a semantic analysis of the LM inference process. We first propose a virtual transition of the latent representation and then trace its factual transition. Based on the deviation in transitions, we estimate the gain of finetuning each model layer, and further, narrow down the scope for finetuning. We perform extensive experiments across well-known LMs and datasets. The results show that our approach is effective and efficient, and outperforms the existing baselines. Our approach is orthogonal to existing efficient techniques, such as PEFT methods, offering practical values on LM finetuning.
- Abstract(参考訳): 下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。
しかし、完全な微調整は通常コストがかかる。
パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば \textit{how to finetune} にフォーカスするが、 \textit{where to finetune} の問題を無視している。
層レベルでの)きめ細やかな解答のパイオニアとして、私たちはLM推論プロセスのセマンティック分析を行います。
まず、潜在表現の仮想遷移を提案し、その実際の遷移を辿る。
遷移の偏りに基づいて、各モデル層を微調整する際の利得を推定し、さらに、微調整のスコープを狭める。
我々は、よく知られたLMとデータセットにまたがる広範な実験を行う。
その結果,本手法は有効かつ効率的であり,既存のベースラインよりも優れていることがわかった。
提案手法は,PEFT法などの既存の効率的な手法と直交し,LMファインタニングの実践的価値を提供する。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。
我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。
以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-21T20:08:52Z) - When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method [56.571951345048355]
大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。
LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
論文 参考訳(メタデータ) (2024-02-27T04:18:49Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。