Fugu-MT 論文翻訳(概要): FL-Tuning: Layer Tuning for Feed-Forward Network in Transformer

論文の概要: FL-Tuning: Layer Tuning for Feed-Forward Network in Transformer

arxiv url: http://arxiv.org/abs/2206.15312v1
Date: Thu, 30 Jun 2022 14:30:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-01 13:37:05.615548
Title: FL-Tuning: Layer Tuning for Feed-Forward Network in Transformer
Title（参考訳）: FL-Tuning:トランスにおけるフィードフォワードネットワークのためのレイヤチューニング
Authors: Jingping Liu, Yuqiu Song, Kui Xue, Hongli Sun, Chao Wang, Lihan Chen, Haiyun Jiang, Jiaqing Liang, Tong Ruan
Abstract要約: トランスフォーマー層に学習可能なパラメータを追加することを目的とした,レイヤチューニングと呼ばれる新しいチューニング手法を提案する。具体的には,Transformerのフィードフォワードネットワーク,すなわちFLチューニングのレイヤチューニングに着目する。我々は、パブリックCLUEベンチマークで広範な実験を行う。
参考スコア（独自算出の注目度）: 10.875712727566407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt tuning is an emerging way of adapting pre-trained language models to downstream tasks. However, the existing studies are mainly to add prompts to the input sequence. This way would not work as expected due to the intermediate multi-head self-attention and feed-forward network computation, making model optimization not very smooth. Hence, we propose a novel tuning way called layer tuning, aiming to add learnable parameters in Transformer layers. Specifically, we focus on layer tuning for feed-forward network in the Transformer, namely FL-tuning. It introduces additional units into the hidden layer of each feed-forward network. We conduct extensive experiments on the public CLUE benchmark. The results show that: 1) Our FL-tuning outperforms prompt tuning methods under both full-data and few-shot settings in almost all cases. In particular, it improves accuracy by 17.93% (full-data setting) on WSC 1.0 and F1 by 16.142% (few-shot setting) on CLUENER over P-tuning v2. 2) Our FL-tuning is more stable and converges about 1.17 times faster than P-tuning v2. 3) With only about 3% of Transformer's parameters to be trained, FL-tuning is comparable with fine-tuning on most datasets, and significantly outperforms fine-tuning (e.g., accuracy improved by 12.9% on WSC 1.1) on several datasets. The source codes are available at https://github.com/genggui001/FL-Tuning.
Abstract（参考訳）: プロンプトチューニングは、トレーニング済みの言語モデルを下流タスクに適応させる新しい方法である。しかし、既存の研究は主に入力シーケンスにプロンプトを追加することである。この方法は、中間のマルチヘッド・セルフアテンションとフィードフォワード・ネットワーク計算のために期待通りには動作せず、モデル最適化をあまりスムーズにしない。そこで我々は,Transformer層に学習可能なパラメータを追加することを目的とした,レイヤチューニングと呼ばれる新しいチューニング手法を提案する。具体的には,Transformerのフィードフォワードネットワーク,すなわちFLチューニングのレイヤチューニングに着目する。各フィードフォワードネットワークの隠された層に追加のユニットを導入する。我々は、パブリックCLUEベンチマークで広範な実験を行う。結果はこう示しています 1) FLチューニングは,ほぼすべてのケースにおいて,フルデータおよび少数ショット設定の両方で即時チューニング手法の性能が向上する。特に、WSC 1.0とF1では17.93%、P-tuning v2ではCLUENERでは16.142%の精度向上を実現している。 2) FLチューニングはより安定であり, Pチューニングv2の約1.17倍の速度で収束する。 3) Transformer のパラメータの 3% しかトレーニングされないため、FL-tuning は、ほとんどのデータセットの微調整と同等であり、微調整(例えば、WSC 1.1 では 12.9% の精度向上)では、いくつかのデータセットで大幅に上回っている。ソースコードはhttps://github.com/genggui001/fl-tuningで入手できる。

関連論文リスト

RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers [14.876863939653548]
我々は、注意層ではなく、フィードフォワードネットワーク(FFN)層が視覚変換器(ViT)の推論遅延の主な要因であることを明らかにした。本研究では,テスト中の効率的なFFN層に対するポストトレーニング後構造的再パラメータ化を容易にする新しいチャネルアイドル機構を提案する。
論文参考訳（メタデータ） (2025-05-28T00:27:18Z)
Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves [123.07450481623124]
下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
論文参考訳（メタデータ） (2024-12-16T07:33:23Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。 Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文参考訳（メタデータ） (2024-05-23T15:34:53Z)
PTP: Boosting Stability and Performance of Prompt Tuning with Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文参考訳（メタデータ） (2023-05-03T20:30:51Z)
Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。 Sensuous-Aware Fine-Tuning (SPT) スキーム。 SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文参考訳（メタデータ） (2023-03-15T12:34:24Z)
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文参考訳（メタデータ） (2022-10-17T08:14:49Z)
FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。 3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文参考訳（メタデータ） (2022-03-24T07:26:29Z)
Fast Server Learning Rate Tuning for Coded Federated Dropout [3.9653673778225946]
Federated Dropout (FD) はFLセッションの通信効率を改善する技術である。各クライアントで異なるサブモデルを使用することで、符号化理論を利用してFDを強化する。 EMNISTデータセットの場合、このメカニズムはドロップアウトケースの最終的な精度の99.6%を達成する。
論文参考訳（メタデータ） (2022-01-26T16:19:04Z)
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks [17.93703302601565]
本稿では,広範囲のモデルスケールとNLUタスクにおいて,適切に最適化されたプロンプトチューニングが普遍的に有効であることを示す。我々は、P-Tuning v2がファインチューニングの代替となり、将来の研究の強力なベースラインになると考えている。
論文参考訳（メタデータ） (2021-10-14T17:58:47Z)
On the Effectiveness of Adapter-based Tuning for Pretrained Language Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文参考訳（メタデータ） (2021-06-06T16:10:12Z)
Over-the-Air Federated Learning from Heterogeneous Data [107.05618009955094]
フェデレートラーニング(Federated Learning、FL)は、集中型モデルの分散ラーニングのためのフレームワークである。我々は,共通局所勾配勾配勾配(SGD)FLアルゴリズムを強化するコンバージェント OTA FL (COTAF) アルゴリズムを開発した。我々は,COTAFにより誘導されるプリコーディングが,OTA FLを用いて訓練されたモデルの収束率と精度を顕著に向上させることを示す。
論文参考訳（メタデータ） (2020-09-27T08:28:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。