論文の概要: Prompting a Pretrained Transformer Can Be a Universal Approximator
- arxiv url: http://arxiv.org/abs/2402.14753v1
- Date: Thu, 22 Feb 2024 18:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:15:50.585622
- Title: Prompting a Pretrained Transformer Can Be a Universal Approximator
- Title(参考訳): プリトレーニングされたトランスのプロンプティングはユニバーサルな近似器になれる
- Authors: Aleksandar Petrov, Philip H.S. Torr, Adel Bibi
- Abstract要約: 従来考えられていたよりもはるかに小さな事前学習モデルでは,プレフィックスの場合には普遍近似が可能であることを示す。
また、関数を所望の精度に近似するのに必要なプレフィックスの長さにジャクソン型境界を与える。
- 参考スコア(独自算出の注目度): 105.59562522323274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the widespread adoption of prompting, prompt tuning and prefix-tuning
of transformer models, our theoretical understanding of these fine-tuning
methods remains limited. A key question is whether one can arbitrarily modify
the behavior of pretrained model by prompting or prefix-tuning it. Formally,
whether prompting and prefix-tuning a pretrained model can universally
approximate sequence-to-sequence functions. This paper answers in the
affirmative and demonstrates that much smaller pretrained models than
previously thought can be universal approximators when prefixed. In fact, the
attention mechanism is uniquely suited for universal approximation with
prefix-tuning a single attention head being sufficient to approximate any
continuous function. Moreover, any sequence-to-sequence function can be
approximated by prefixing a transformer with depth linear in the sequence
length. Beyond these density-type results, we also offer Jackson-type bounds on
the length of the prefix needed to approximate a function to a desired
precision.
- Abstract(参考訳): 変圧器モデルのプロンプト、プロンプトチューニング、プレフィックスチューニングが広く採用されているにもかかわらず、これらの微調整法の理論的理解は限られている。
重要な疑問は、事前訓練されたモデルの振る舞いをプロンプトまたはプレフィックスチューニングによって任意に修正できるかどうかである。
形式的には、事前訓練されたモデルのプロンプトとプレフィックスチューニングは、シーケンス対シーケンス関数を普遍的に近似することができる。
本稿では,従来考えられていたよりもはるかに小さな事前学習モデルが,接頭辞の場合に普遍的近似子になることを示す。
実際、アテンション機構は普遍近似に一意に適しており、プレフィックスチューニングは、任意の連続関数を近似するのに十分である。
さらに、任意のシーケンス-シーケンス関数は、シーケンス長に深さ線形なトランスをプレフィックスすることで近似することができる。
これらの密度型結果に加えて、関数を所望の精度に近似するために必要となるプレフィックスの長さのジャクソン型境界も提供する。
関連論文リスト
- Adversarial Testing as a Tool for Interpretability: Length-based Overfitting of Elementary Functions in Transformers [0.0]
本研究では, シーケンス・ツー・シーケンス変換器の動作を解釈するために, 定義された誤り指標を用いて基本的な編集関数について検討する。
短い列への一般化がしばしば可能であることを示すが、長い列は非常に問題であることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:39:46Z) - Transformers As Approximations of Solomonoff Induction [7.890110890837779]
Solomonoffインダクションはシーケンス予測のための最適極限アルゴリズムである。
計算シーケンス予測の最適な形式であるため、他のシーケンス予測方法と比較できるモデルとして用いられる可能性が考えられる。
我々は,トランスフォーマーモデルが既存のどのシーケンス予測法よりもソロモノフ誘導を近似する仮説を提示し,検討した。
論文 参考訳(メタデータ) (2024-08-22T02:05:44Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - Sampled Transformer for Point Sets [80.66097006145999]
スパース変換器は、連続列列列関数の普遍近似器でありながら、自己アテンション層の計算複雑性を$O(n)$に下げることができる。
我々は、追加の帰納バイアスを伴わずに点集合要素を直接処理できる$O(n)$複雑性サンプリング変換器を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:38:05Z) - Inducer-tuning: Connecting Prefix-tuning and Adapter-tuning [53.72897232951918]
インデューサチューニングはプレフィックスチューニングとファインチューニングのパフォーマンスギャップを埋めることができることを示す。
そこで本研究では,アクセプションチューニングにおける残形を活用しつつ,プレフィックスチューニングとして正確なメカニズムを共有する,新しいプレフィックスチューニング-textitinducer-tuningを提案する。
論文 参考訳(メタデータ) (2022-10-26T04:39:42Z) - Alleviate Exposure Bias in Sequence Prediction \\ with Recurrent Neural
Networks [47.52214243454995]
繰り返しニューラルネットワーク(RNN)を訓練する一般的な戦略は、各ステップで入力として地上の真実を取ることです。
本稿では,RNNの長期的依存関係をよりよく把握するための,完全微分可能なトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-22T06:15:22Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech
Recognition [66.47000813920617]
エンドツーエンド音声認識のためのスパイクトリガー付き非自己回帰変換器モデルを提案する。
提案モデルでは,ターゲット列の長さを正確に予測し,競合性能を実現する。
このモデルは0.0056のリアルタイム係数も達成しており、全ての主流音声認識モデルを超えている。
論文 参考訳(メタデータ) (2020-05-16T08:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。