論文の概要: Empirical Analysis of Efficient Fine-Tuning Methods for Large
Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2401.04051v1
- Date: Mon, 8 Jan 2024 17:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 14:48:29.662927
- Title: Empirical Analysis of Efficient Fine-Tuning Methods for Large
Pre-Trained Language Models
- Title(参考訳): 大規模事前学習言語モデルのための効率的なファインチューニング手法の実証分析
- Authors: Nigel Doering, Cyril Gorlla, Trevor Tuttle, Adhvaith Vijay
- Abstract要約: BitFitとアダプタモジュールは、標準のフルモデルファインチューニングと比較される。
BitFitアプローチは、さまざまなトレーニングデータにわたる完全な微調整パフォーマンスと一致します。
アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
- 参考スコア(独自算出の注目度): 4.096453902709292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large pre-trained language models for downstream tasks remains a
critical challenge in natural language processing. This paper presents an
empirical analysis comparing two efficient fine-tuning methods - BitFit and
adapter modules - to standard full model fine-tuning. Experiments conducted on
GLUE benchmark datasets (MRPC, COLA, STS-B) reveal several key insights. The
BitFit approach, which trains only bias terms and task heads, matches full
fine-tuning performance across varying amounts of training data and time
constraints. It demonstrates remarkable stability even with only 30\% of data,
outperforming full fine-tuning at intermediate data levels. Adapter modules
exhibit high variability, with inconsistent gains over default models. The
findings indicate BitFit offers an attractive balance between performance and
parameter efficiency. Our work provides valuable perspectives on model tuning,
emphasizing robustness and highlighting BitFit as a promising alternative for
resource-constrained or streaming task settings. The analysis offers actionable
guidelines for efficient adaptation of large pre-trained models, while
illustrating open challenges in stabilizing techniques like adapter modules.
- Abstract(参考訳): 下流タスクのための事前学習された大規模言語モデルの微調整は、自然言語処理において重要な課題である。
本稿では,bitfit と adapter モジュールの2つの効率的な微調整法を標準フルモデルの微調整法と比較した。
GLUEベンチマークデータセット(MRPC、COLA、STS-B)で実施された実験は、いくつかの重要な洞察を明らかにしている。
バイアス項とタスクヘッドのみをトレーニングするBitFitアプローチは、さまざまなトレーニングデータと時間制約にまたがる完全な微調整パフォーマンスと一致します。
データの30分の1に過ぎず、中間データレベルで完全な微調整よりも優れた安定性を示す。
アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
結果から、bitfitは性能とパラメータの効率のバランスが魅力的であることが分かる。
私たちの研究は、モデルのチューニング、堅牢性を強調し、BitFitをリソース制約やストリーミングタスク設定の有望な代替手段として強調する上で、貴重な視点を提供します。
この分析は、大きな事前訓練されたモデルの効率的な適応のための実用的なガイドラインを提供する一方で、アダプタモジュールのようなテクニックの安定化に関するオープンな課題を説明できる。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。
我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。
以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-21T20:08:52Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Prototypical Fine-tuning: Towards Robust Performance Under Varying Data
Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。
提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文 参考訳(メタデータ) (2022-11-24T14:38:08Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。