論文の概要: FL-Tuning: Layer Tuning for Feed-Forward Network in Transformer
- arxiv url: http://arxiv.org/abs/2206.15312v1
- Date: Thu, 30 Jun 2022 14:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 13:37:05.615548
- Title: FL-Tuning: Layer Tuning for Feed-Forward Network in Transformer
- Title(参考訳): FL-Tuning:トランスにおけるフィードフォワードネットワークのためのレイヤチューニング
- Authors: Jingping Liu, Yuqiu Song, Kui Xue, Hongli Sun, Chao Wang, Lihan Chen,
Haiyun Jiang, Jiaqing Liang, Tong Ruan
- Abstract要約: トランスフォーマー層に学習可能なパラメータを追加することを目的とした,レイヤチューニングと呼ばれる新しいチューニング手法を提案する。
具体的には,Transformerのフィードフォワードネットワーク,すなわちFLチューニングのレイヤチューニングに着目する。
我々は、パブリックCLUEベンチマークで広範な実験を行う。
- 参考スコア(独自算出の注目度): 10.875712727566407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning is an emerging way of adapting pre-trained language models to
downstream tasks. However, the existing studies are mainly to add prompts to
the input sequence. This way would not work as expected due to the intermediate
multi-head self-attention and feed-forward network computation, making model
optimization not very smooth. Hence, we propose a novel tuning way called layer
tuning, aiming to add learnable parameters in Transformer layers. Specifically,
we focus on layer tuning for feed-forward network in the Transformer, namely
FL-tuning. It introduces additional units into the hidden layer of each
feed-forward network. We conduct extensive experiments on the public CLUE
benchmark. The results show that: 1) Our FL-tuning outperforms prompt tuning
methods under both full-data and few-shot settings in almost all cases. In
particular, it improves accuracy by 17.93% (full-data setting) on WSC 1.0 and
F1 by 16.142% (few-shot setting) on CLUENER over P-tuning v2. 2) Our FL-tuning
is more stable and converges about 1.17 times faster than P-tuning v2. 3) With
only about 3% of Transformer's parameters to be trained, FL-tuning is
comparable with fine-tuning on most datasets, and significantly outperforms
fine-tuning (e.g., accuracy improved by 12.9% on WSC 1.1) on several datasets.
The source codes are available at https://github.com/genggui001/FL-Tuning.
- Abstract(参考訳): プロンプトチューニングは、トレーニング済みの言語モデルを下流タスクに適応させる新しい方法である。
しかし、既存の研究は主に入力シーケンスにプロンプトを追加することである。
この方法は、中間のマルチヘッド・セルフアテンションとフィードフォワード・ネットワーク計算のために期待通りには動作せず、モデル最適化をあまりスムーズにしない。
そこで我々は,Transformer層に学習可能なパラメータを追加することを目的とした,レイヤチューニングと呼ばれる新しいチューニング手法を提案する。
具体的には,Transformerのフィードフォワードネットワーク,すなわちFLチューニングのレイヤチューニングに着目する。
各フィードフォワードネットワークの隠された層に追加のユニットを導入する。
我々は、パブリックCLUEベンチマークで広範な実験を行う。
結果はこう示しています
1) FLチューニングは,ほぼすべてのケースにおいて,フルデータおよび少数ショット設定の両方で即時チューニング手法の性能が向上する。
特に、WSC 1.0とF1では17.93%、P-tuning v2ではCLUENERでは16.142%の精度向上を実現している。
2) FLチューニングはより安定であり, Pチューニングv2の約1.17倍の速度で収束する。
3) Transformer のパラメータの 3% しかトレーニングされないため、FL-tuning は、ほとんどのデータセットの微調整と同等であり、微調整(例えば、WSC 1.1 では 12.9% の精度向上)では、いくつかのデータセットで大幅に上回っている。
ソースコードはhttps://github.com/genggui001/fl-tuningで入手できる。
関連論文リスト
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method [56.571951345048355]
大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。
LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
論文 参考訳(メタデータ) (2024-02-27T04:18:49Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Fast Server Learning Rate Tuning for Coded Federated Dropout [3.9653673778225946]
Federated Dropout (FD) はFLセッションの通信効率を改善する技術である。
各クライアントで異なるサブモデルを使用することで、符号化理論を利用してFDを強化する。
EMNISTデータセットの場合、このメカニズムはドロップアウトケースの最終的な精度の99.6%を達成する。
論文 参考訳(メタデータ) (2022-01-26T16:19:04Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.9790236766474201]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERTベースとGPT-2の推論遅延を最大4.8倍,3.72倍に改善し,0.75%の精度低下と平均パープレキシティが得られた。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally
Across Scales and Tasks [17.93703302601565]
本稿では,広範囲のモデルスケールとNLUタスクにおいて,適切に最適化されたプロンプトチューニングが普遍的に有効であることを示す。
我々は、P-Tuning v2がファインチューニングの代替となり、将来の研究の強力なベースラインになると考えている。
論文 参考訳(メタデータ) (2021-10-14T17:58:47Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z) - Over-the-Air Federated Learning from Heterogeneous Data [107.05618009955094]
フェデレートラーニング(Federated Learning、FL)は、集中型モデルの分散ラーニングのためのフレームワークである。
我々は,共通局所勾配勾配勾配(SGD)FLアルゴリズムを強化するコンバージェント OTA FL (COTAF) アルゴリズムを開発した。
我々は,COTAFにより誘導されるプリコーディングが,OTA FLを用いて訓練されたモデルの収束率と精度を顕著に向上させることを示す。
論文 参考訳(メタデータ) (2020-09-27T08:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。