論文の概要: Universality and Limitations of Prompt Tuning
- arxiv url: http://arxiv.org/abs/2305.18787v2
- Date: Thu, 16 Nov 2023 08:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:47:34.310338
- Title: Universality and Limitations of Prompt Tuning
- Title(参考訳): プロンプトチューニングの普遍性と限界
- Authors: Yihan Wang, Jatin Chauhan, Wei Wang, Cho-Jui Hsieh
- Abstract要約: トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
- 参考スコア(独自算出の注目度): 65.8354898840308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the demonstrated empirical efficacy of prompt tuning to adapt a
pretrained language model for a new task, the theoretical underpinnings of the
difference between "tuning parameters before the input" against "the tuning of
model weights" are limited. We thus take one of the first steps to understand
the role of soft-prompt tuning for transformer-based architectures. By
considering a general purpose architecture, we analyze prompt tuning from the
lens of both: universal approximation and limitations with finite-depth
fixed-weight pretrained transformers for continuous-valued functions. Our
universality result guarantees the existence of a strong transformer with a
prompt to approximate any sequence-to-sequence function in the set of Lipschitz
functions. The limitations of prompt tuning for limited-depth transformers are
first proved by constructing a set of datasets, that cannot be memorized by a
prompt of any length for a given single encoder layer. We also provide a lower
bound on the required number of tunable prompt parameters and compare the
result with the number of parameters required for a low-rank update (based on
LoRA) for a single-layer setting. We finally extend our analysis to multi-layer
settings by providing sufficient conditions under which the transformer can at
best learn datasets from invertible functions only. Our theoretical claims are
also corroborated by empirical results.
- Abstract(参考訳): 新しいタスクに事前学習された言語モデルを適用するための即興チューニングの実証的な効果にもかかわらず、"入力前のチューニングパラメータ"と"モデル重みのチューニング"の差の理論的基礎は限られている。
そこで我々は,トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための第一歩を踏み出した。
汎用アーキテクチャを考慮し、連続値関数に対する有限深度固定重み付き事前学習変圧器による普遍近似と制限の両レンズからの即時チューニングを解析する。
我々の普遍性の結果は、リプシッツ関数の集合における任意のシーケンス列関数を近似するプロンプトを持つ強変圧器の存在を保証する。
制限深度変換器のプロンプトチューニングの制限は、与えられた単一エンコーダ層の任意の長さのプロンプトによって記憶できない一連のデータセットを構築することで最初に証明される。
また、調整可能なプロンプトパラメータの必要な数に対する低いバウンダリを提供し、単一層設定の低ランク更新(LoRAに基づく)に必要なパラメータの数と比較する。
我々は最終的に、変換器が可逆関数のみからデータセットを学習できる十分な条件を提供することで、分析を多層設定に拡張する。
我々の理論的な主張は経験的な結果にも裏付けられている。
関連論文リスト
- On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding [32.01426831450348]
ループ変換器はパラメータ効率とチューリング完全性に利点がある。
シーケンス・ツー・シーケンス関数の連続率のモジュラリティの概念を定義することでループ変換器の近似率を確立する。
論文 参考訳(メタデータ) (2024-10-02T10:31:17Z) - Towards Infinite-Long Prefix in Transformer [18.24137806007111]
本研究では,全パラメータの微調整性能に適合するプロンプト法と文脈に基づく微調整法について検討する。
無限長のプレフィックスではなく、トレーニング可能なパラメータをいくつか導入し、微調整するだけでよいアルゴリズムを実装している。
提案手法は, フルパラメータ細調整, P-Tuning V2, LoRA などの既存手法と比較して, 優れた性能, 競争性を実現している。
論文 参考訳(メタデータ) (2024-06-20T06:56:35Z) - Prompting a Pretrained Transformer Can Be a Universal Approximator [105.59562522323274]
従来考えられていたよりもはるかに小さな事前学習モデルでは,プレフィックスの場合には普遍近似が可能であることを示す。
また、関数を所望の精度に近似するのに必要なプレフィックスの長さにジャクソン型境界を与える。
論文 参考訳(メタデータ) (2024-02-22T18:12:48Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model
Fine-tuning [32.84435258519842]
ゲート機構により,粒度の細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整できる適応型プリフィックスチューニング(APT)を提案する。
SuperGLUEとNERデータセットの実験は、APTの有効性を示している。
論文 参考訳(メタデータ) (2023-05-24T14:51:01Z) - Prompt Tuning for Generative Multimodal Pretrained Models [75.44457974275154]
我々は、理解タスクと生成タスクの両方に適応した統合シーケンス・ツー・シーケンス事前学習モデルに、即時チューニングを実装した。
実験結果から,軽量なプロンプトチューニングはファインタニングで同等の性能を発揮することが示された。
微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
論文 参考訳(メタデータ) (2022-08-04T08:56:38Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。