論文の概要: Advancing Parameter Efficiency in Fine-tuning via Representation Editing
- arxiv url: http://arxiv.org/abs/2402.15179v2
- Date: Wed, 28 Feb 2024 05:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:46:42.296587
- Title: Advancing Parameter Efficiency in Fine-tuning via Representation Editing
- Title(参考訳): 表現編集による微調整におけるパラメータ効率の向上
- Authors: Muling Wu, Wenhao Liu, Xiaohua Wang, Tianlong Li, Changze Lv, Zixuan
Ling, Jianhao Zhu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang
- Abstract要約: 我々はRepresentation EDiting(RED)と呼ばれる微細チューニングニューラルモデルに対する新しいアプローチを提案する。
REDは、フルパラメータの微調整に比べて、トレーニング可能なパラメータの数を25,700ドルと大幅に削減する。
注目すべきは、REDが完全なパラメータの微調整に匹敵する、あるいは優れた結果をもたらすことだ。
- 参考スコア(独自算出の注目度): 43.201368273466365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter Efficient Fine-Tuning (PEFT) has gained significant attention for
its ability to achieve competitive results while updating only a small subset
of trainable parameters. Despite the promising performance of current PEFT
methods, they present challenges in hyperparameter selection, such as
determining the rank of LoRA or Adapter, or specifying the length of soft
prompts. In addressing these challenges, we propose a novel approach to
fine-tuning neural models, termed Representation EDiting (RED), which scales
and biases the representation produced at each layer. RED substantially reduces
the number of trainable parameters by a factor of $25,700$ compared to full
parameter fine-tuning, and by a factor of $32$ compared to LoRA. Remarkably,
RED achieves comparable or superior results to full parameter fine-tuning and
other PEFT methods. Extensive experiments were conducted across models of
varying architectures and scales, including RoBERTa, GPT-2, T5, and Llama-2,
and the results demonstrate the efficiency and efficacy of RED, positioning it
as a promising PEFT approach for large neural models.
- Abstract(参考訳): パラメータ効率の良いファインチューニング(PEFT)は、トレーニング可能なパラメータの小さなサブセットだけを更新しながら、競争結果を達成する能力において大きな注目を集めている。
現在のPEFT手法の有望な性能にもかかわらず、彼らはLoRAやAdapterのランクの決定やソフトプロンプトの長さの指定など、ハイパーパラメータ選択の課題を提示している。
これらの課題に対処するために、我々はRepresentation EDiting (RED)と呼ばれる、各層で生成された表現をスケールしバイアスする微調整ニューラルモデルに対する新しいアプローチを提案する。
REDはトレーニング可能なパラメータの数を、完全なパラメータの微調整に比べて25,700ドル、LoRAに比べて32ドルと大幅に削減している。
注目すべきは、REDは完全なパラメータの微調整や他のPEFTメソッドに匹敵する結果または優れた結果が得られることである。
実験はRoBERTa, GPT-2, T5, Llama-2など, 様々なアーキテクチャやスケールのモデルで実施され, REDの有効性と有効性を示し, 大規模ニューラルモデルに対して有望なPEFTアプローチとして位置づけた。
関連論文リスト
- Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning [11.745775952171607]
初期残基を注入することによりPEFTを増強するSimple BOosterであるSIBOを提案する。
22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。
論文 参考訳(メタデータ) (2024-02-19T07:22:29Z) - LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models [90.24999406296867]
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-14T07:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。