論文の概要: Empowering parameter-efficient transfer learning by recognizing the
kernel structure in self-attention
- arxiv url: http://arxiv.org/abs/2205.03720v1
- Date: Sat, 7 May 2022 20:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 14:13:31.334226
- Title: Empowering parameter-efficient transfer learning by recognizing the
kernel structure in self-attention
- Title(参考訳): 自己注意におけるカーネル構造認識によるパラメータ効率変換学習の強化
- Authors: Yifan Chen, Devamanyu Hazarika, Mahdi Namazifar, Yang Liu, Di Jin,
Dilek Hakkani-Tur
- Abstract要約: 本稿では,カーネル構造を自己アテンションに利用して,可変パラメータの割り当てを誘導するアダプタを提案する。
提案するアダプタは,既存のベースラインの性能向上や性能向上を図っている。
- 参考スコア(独自算出の注目度): 53.72897232951918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive amount of trainable parameters in the pre-trained language models
(PLMs) makes them hard to be deployed to multiple downstream tasks. To address
this issue, parameter-efficient transfer learning methods have been proposed to
tune only a few parameters during fine-tuning while freezing the rest. This
paper looks at existing methods along this line through the \textit{kernel
lens}. Motivated by the connection between self-attention in transformer-based
PLMs and kernel learning, we propose \textit{kernel-wise adapters}, namely
\textit{Kernel-mix}, that utilize the kernel structure in self-attention to
guide the assignment of the tunable parameters. These adapters use guidelines
found in classical kernel learning and enable separate parameter tuning for
each attention head. Our empirical results, over a diverse set of natural
language generation and understanding tasks, show that our proposed adapters
can attain or improve the strong performance of existing baselines.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)の膨大なトレーニング可能なパラメータは、複数の下流タスクへのデプロイを困難にします。
この問題に対処するために、パラメータ効率の高い転送学習法が提案されており、微調整の間、残りを凍結しながら数個のパラメータのみをチューニングできる。
本稿では,この線に沿った既存の方法について,textit{kernel lens} を用いて検討する。
トランスフォーマティブベースplmにおける自己アテンションとカーネル学習の関係を動機付けて,カーネル構造を自己アテンションで活用し,可変パラメータの割り当てを誘導する \textit{kernel-wise adapters},すなわち \textit{kernel-mix} を提案する。
これらのアダプタは、古典的なカーネル学習で見られるガイドラインを使用し、各アテンションヘッドに対して別々のパラメータチューニングを可能にする。
実験の結果,多種多様な自然言語生成および理解タスクに対して,提案したアダプタが既存のベースラインの強靭な性能を達成あるいは向上できることを示す。
関連論文リスト
- Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - Towards Infinite-Long Prefix in Transformer [18.24137806007111]
本研究では,全パラメータの微調整性能に適合するプロンプト法と文脈に基づく微調整法について検討する。
無限長のプレフィックスではなく、トレーニング可能なパラメータをいくつか導入し、微調整するだけでよいアルゴリズムを実装している。
提案手法は, フルパラメータ細調整, P-Tuning V2, LoRA などの既存手法と比較して, 優れた性能, 競争性を実現している。
論文 参考訳(メタデータ) (2024-06-20T06:56:35Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - Inducer-tuning: Connecting Prefix-tuning and Adapter-tuning [53.72897232951918]
インデューサチューニングはプレフィックスチューニングとファインチューニングのパフォーマンスギャップを埋めることができることを示す。
そこで本研究では,アクセプションチューニングにおける残形を活用しつつ,プレフィックスチューニングとして正確なメカニズムを共有する,新しいプレフィックスチューニング-textitinducer-tuningを提案する。
論文 参考訳(メタデータ) (2022-10-26T04:39:42Z) - Prompt-Matched Semantic Segmentation [96.99924127527002]
本研究の目的は、事前学習した基礎モデルを、画像意味セグメンテーションの下流の様々なタスクに効果的に適応する方法を検討することである。
本稿では,タスク指向のチューニングに適応的に視覚的プロンプトを生成するとともに,基礎モデルの本来の構造を維持できる新しい階層間プロンプトマッチングフレームワークを提案する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2つのステージ間で階層的に補間し、各タスクに対して適切なプロンプトを学習する。
論文 参考訳(メタデータ) (2022-08-22T09:12:53Z) - On the infinite width limit of neural networks with a standard
parameterization [52.07828272324366]
幅が無限大になるにつれて、これらの特性を全て保存する標準パラメータ化の補間の改善を提案する。
実験により,結果のカーネルはNTKパラメータ化の結果とよく似た精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-01-21T01:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。