論文の概要: Fundamental Limits of Prompt Tuning Transformers: Universality, Capacity and Efficiency
- arxiv url: http://arxiv.org/abs/2411.16525v1
- Date: Mon, 25 Nov 2024 16:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:25:03.379476
- Title: Fundamental Limits of Prompt Tuning Transformers: Universality, Capacity and Efficiency
- Title(参考訳): プロンプトチューニング変圧器の基本限界:普遍性, 容量, 効率性
- Authors: Jerry Yao-Chieh Hu, Wei-Po Wang, Ammar Gilani, Chenyang Li, Zhao Song, Han Liu,
- Abstract要約: 主要なコントリビューションは、テクスチングル・ヘッド・トランスフォーマーに、テクスチングル・セルフアテンション・レイヤのみを組み込むことである。
そのような最も単純な変換器の迅速なチューニングは、列から列へのリプシッツ関数に対する普遍近似であることを示す。
- 参考スコア(独自算出の注目度): 13.566489504237868
- License:
- Abstract: We investigate the statistical and computational limits of prompt tuning for transformer-based foundation models. Our key contributions are prompt tuning on \textit{single-head} transformers with only a \textit{single} self-attention layer: (i) is universal, and (ii) supports efficient (even almost-linear time) algorithms under the Strong Exponential Time Hypothesis (SETH). Statistically, we prove that prompt tuning on such simplest possible transformers are universal approximators for sequence-to-sequence Lipschitz functions. In addition, we provide an exponential-in-$dL$ and -in-$(1/\epsilon)$ lower bound on the required soft-prompt tokens for prompt tuning to memorize any dataset with 1-layer, 1-head transformers. Computationally, we identify a phase transition in the efficiency of prompt tuning, determined by the norm of the \textit{soft-prompt-induced} keys and queries, and provide an upper bound criterion. Beyond this criterion, no sub-quadratic (efficient) algorithm for prompt tuning exists under SETH. Within this criterion, we showcase our theory by proving the existence of almost-linear time prompt tuning inference algorithms. These fundamental limits provide important necessary conditions for designing expressive and efficient prompt tuning methods for practitioners.
- Abstract(参考訳): 本稿では,変圧器ベース基礎モデルに対するプロンプトチューニングの統計的および計算的限界について検討する。
私たちの重要なコントリビューションは、 \textit{single-head} トランスフォーマーに、単に \textit{single} 自己アテンション層だけを付加するプロンプトチューニングです。
i)は普遍的で、
(II)は、SETH(Strong Exponential Time hypothesis)の下で、効率的な(ほぼ直線的な時間でさえも)アルゴリズムをサポートする。
統計的に、そのような最も単純な変換器の迅速なチューニングは、シーケンス・ツー・シーケンス・リプシッツ関数の普遍近似であることを示す。
さらに, 1層1ヘッドトランスフォーマーで任意のデータセットを記憶するために, 必要なソフトプロンプトトークンに対する指数関数-in-$dL$と-in-$(1/\epsilon)$ローバウンドを提供する。
計算により,<textit{soft-prompt-induced}キーとクエリのノルムによって決定される,プロンプトチューニングの効率の位相遷移を同定し,上限条件を提供する。
この基準を超えると、SETHの下ではプロンプトチューニングのためのサブクワッドラティック(効率的な)アルゴリズムは存在しない。
この基準の中では、ほぼ線形時間プロンプト推論アルゴリズムの存在を証明し、我々の理論を実証する。
これらの基本的な制限は、実践者のための表現的で効率的なプロンプトチューニング手法を設計するための重要な条件を提供する。
関連論文リスト
- Towards Infinite-Long Prefix in Transformer [18.24137806007111]
本研究では,全パラメータの微調整性能に適合するプロンプト法と文脈に基づく微調整法について検討する。
無限長のプレフィックスではなく、トレーニング可能なパラメータをいくつか導入し、微調整するだけでよいアルゴリズムを実装している。
提案手法は, フルパラメータ細調整, P-Tuning V2, LoRA などの既存手法と比較して, 優れた性能, 競争性を実現している。
論文 参考訳(メタデータ) (2024-06-20T06:56:35Z) - IAPT: Instruction-Aware Prompt Tuning for Large Language Models [19.408462115679914]
ソフトトークンを4つしか必要としない新しいプロンプトチューニング手法である命令認識型プロンプトチューニング(IAPT)を提案する。
まず,各トランスフォーマー層にパラメータ効率の良いソフトプロンプト生成器を設置し,各入力命令に対して慣用的なソフトプロンプトを生成する。
第2に、ソフトプロンプトジェネレータは、自己アテンションプーリング操作、2つのリニアプロジェクション、およびアクティベーション関数からなるボトルネックアーキテクチャを持つモジュールである。
論文 参考訳(メタデータ) (2024-05-28T14:11:01Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - Structured Prompt Tuning [83.71253868369999]
入力に調整可能な埋め込み列を前もって予測するのではなく、ハイパーネットワークを通してソフトプロンプト埋め込みを生成する。
我々のアプローチは標準のプロンプトチューニングを仮定し、モデル設計の柔軟性を高め、シングルタスクとマルチタスクの両方のトレーニング設定に適用できる。
論文 参考訳(メタデータ) (2022-05-24T18:36:34Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。