論文の概要: Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed
Representations
- arxiv url: http://arxiv.org/abs/2211.08794v2
- Date: Sat, 6 May 2023 06:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:57:08.321261
- Title: Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed
Representations
- Title(参考訳): マルチビュー圧縮表現を用いたロバスト低リソースファインチューニングに向けて
- Authors: Linlin Liu, Xingxuan Li, Megh Thakkar, Xin Li, Lidong Bing, Shafiq
Joty, Luo Si
- Abstract要約: 事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。
オーバーフィッティングを減らすために,PLMの隠れ表現を利用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 51.759605118425526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the huge amount of parameters, fine-tuning of pretrained language
models (PLMs) is prone to overfitting in the low resource scenarios. In this
work, we present a novel method that operates on the hidden representations of
a PLM to reduce overfitting. During fine-tuning, our method inserts random
autoencoders between the hidden layers of a PLM, which transform activations
from the previous layers into a multi-view compressed representation before
feeding it into the upper layers. The autoencoders are plugged out after
fine-tuning, so our method does not add extra parameters or increase
computation cost during inference. Our method demonstrates promising
performance improvement across a wide range of sequence- and token-level
low-resource NLP tasks.
- Abstract(参考訳): 大量のパラメータのため、事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。
そこで本研究では,PLMの隠れ表現に基づいてオーバーフィッティングを低減する手法を提案する。
微調整の際には, PLMの隠蔽層間にランダムなオートエンコーダを挿入し, 前の層からのアクティベーションをマルチビュー圧縮表現に変換して上層に供給する。
オートエンコーダは微調整後に接続されるので,提案手法ではパラメータの追加や推論時の計算コストの増大は行わない。
本手法は,多種多様なシーケンスおよびトークンレベルの低リソースnlpタスクにおいて有望な性能改善を示す。
関連論文リスト
- SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。
SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文 参考訳(メタデータ) (2024-10-09T19:03:52Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Multi-Prompting Decoder Helps Better Language Understanding [23.084538462710125]
本稿では,MaaS適応のためのMPD(Multi-Prompting Decoder)フレームワークを提案する。
提案手法は,複数の自然言語理解データセットに対して,数ショット設定で新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-10T13:58:46Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。
本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。
低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文 参考訳(メタデータ) (2024-04-15T11:53:22Z) - Frustratingly Simple Memory Efficiency for Pre-trained Language Models
via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。
本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。
このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文 参考訳(メタデータ) (2023-09-15T19:00:00Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - NoisyTune: A Little Noise Can Help You Finetune Pretrained Language
Models Better [98.5705258907774]
訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。
PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。
NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
論文 参考訳(メタデータ) (2022-02-24T11:08:02Z) - I-Tuning: Tuning Language Models with Image for Caption Generation [9.511101155155957]
本研究では,凍結したPLMをキャプション生成のための画像で調整する新たな視点を提案する。
我々は,この手法をI-Tuningと表現し,画像から視覚情報を自動フィルタリングし,PLMの出力隠れ状態を調整する。
論文 参考訳(メタデータ) (2022-02-14T09:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。