論文の概要: Toward Infinite-Long Prefix in Transformer
- arxiv url: http://arxiv.org/abs/2406.14036v1
- Date: Thu, 20 Jun 2024 06:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 15:10:05.731665
- Title: Toward Infinite-Long Prefix in Transformer
- Title(参考訳): 変圧器の無限長プリフィックスに向けて
- Authors: Jiuxiang Gu, Yingyu Liang, Zhenmei Shi, Zhao Song, Chiwun Yang,
- Abstract要約: プレフィックス学習の学習能力について,プレフィックス長の観点から検討した。
任意の接頭辞長を効率よく「等価」なNTK-Attention法を提案する。
- 参考スコア(独自算出の注目度): 29.187250620950927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prompting and contextual-based fine-tuning methods, which we call Prefix Learning, have been proposed to enhance the performance of language models on various downstream tasks that can match full parameter fine-tuning. There remains a limited theoretical understanding of how these methods work. In this paper, we aim to relieve this limitation by studying the learning ability of Prefix Learning from the perspective of prefix length. In particular, we approximate the infinite-long Prefix Learning optimization process by the Neural Tangent Kernel (NTK) technique. We formulate and solve it as a learning problem of the infinite-long prefix in a one-layer attention network. Our results confirm the over-parameterization property and arbitrary small loss convergence guarantee of the infinite-long Prefix Learning in attention. To the implementation end, we propose our NTK-Attention method, which is "equivalent" to attention computation with arbitrary prefix length efficiently. Its time complexity mainly depends on the sub-quadratic of input length (without prefix), and our method only requires $d^2 + d$ extra parameters for representation, where $d$ is the feature dimension. In addition, we conducted experiments that compare our NTK-Attention with full parameters fine-tuning, LoRA, and P-Tuning V2 methods across vision or natural language datasets. The results indicate our approach may be a promising parameter-efficient-fine-tuning method since it has demonstrated superior performance in numerous scenarios. Our code can be found at \url{https://github.com/ChristianYang37/chiwun/tree/main/src/NTK-Attention}.
- Abstract(参考訳): プレフィックスラーニング(Prefix Learning)と呼ばれるプロンプティングおよび文脈に基づく微調整手法が提案され,全パラメータの微調整に適合する様々な下流タスクにおける言語モデルの性能向上が提案されている。
これらの方法の動作に関する理論的な理解は依然として限られている。
本稿では,プレフィックス学習の学習能力をプレフィックス長の観点から研究することで,この制限を緩和することを目的とする。
特に,ニューラルタンジェントカーネル(NTK)技術を用いて,無限長の事前修正学習過程を近似する。
一層アテンションネットワークにおいて、無限長プレフィックスの学習問題として定式化して解決する。
本研究は,無限長事前修正学習における過パラメータ化特性と任意の損失収束保証を確認した。
実装の最後には、任意のプレフィックス長を持つ注意計算に「等価」なNTK-Attention法を提案する。
その時間複雑性は主に入力長のサブクアドラティック(プレフィックスなしで)に依存し、我々の手法は表現に$d^2 + d$の余分なパラメータしか必要とせず、$d$は特徴次元である。
さらに、NTK-Attentionとフルパラメータの微調整、LoRA、P-Tuning V2を視覚や自然言語のデータセットで比較する実験を行った。
その結果,本手法は多くのシナリオにおいて優れた性能を示すため,提案手法は有望なパラメータ効率・微細チューニング手法である可能性が示唆された。
我々のコードは \url{https://github.com/ChristianYang37/chiwun/tree/main/src/NTK-Attention} にある。
関連論文リスト
- Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model
Fine-tuning [32.84435258519842]
ゲート機構により,粒度の細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整できる適応型プリフィックスチューニング(APT)を提案する。
SuperGLUEとNERデータセットの実験は、APTの有効性を示している。
論文 参考訳(メタデータ) (2023-05-24T14:51:01Z) - Prefix Propagation: Parameter-Efficient Tuning for Long Sequences [35.15831629770172]
従来の隠蔽状態に対してプレフィックスを条件づける,単純かつ効果的な手法であるプレフィックスプロパゲーションを提案する。
我々は,長期文書作成作業におけるプレフィックス・プロパゲーションがプレフィックス・チューニングより優れていることを実証的に示す。
我々の知る限りでは、この研究は長文言語タスクのためのパラメータ効率の学習に最初に焦点をあてるものである。
論文 参考訳(メタデータ) (2023-05-20T04:07:06Z) - Inducer-tuning: Connecting Prefix-tuning and Adapter-tuning [53.72897232951918]
インデューサチューニングはプレフィックスチューニングとファインチューニングのパフォーマンスギャップを埋めることができることを示す。
そこで本研究では,アクセプションチューニングにおける残形を活用しつつ,プレフィックスチューニングとして正確なメカニズムを共有する,新しいプレフィックスチューニング-textitinducer-tuningを提案する。
論文 参考訳(メタデータ) (2022-10-26T04:39:42Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Prefix-Tuning: Optimizing Continuous Prompts for Generation [85.6357778621526]
微調整は、大規模な事前訓練された言語モデルを使用して下流のタスクを実行する事実上の方法です。
自然言語生成タスクの微調整に代わる軽量なプレフィックスチューニングを提案する。
パラメータの0.1%しか学習しないことで、プレフィックスチューニングは完全なデータ設定で同等のパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-01-01T08:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。