論文の概要: On the Role of Attention in Prompt-tuning
- arxiv url: http://arxiv.org/abs/2306.03435v1
- Date: Tue, 6 Jun 2023 06:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 17:03:32.153318
- Title: On the Role of Attention in Prompt-tuning
- Title(参考訳): プロンプトチューニングにおける注意の役割について
- Authors: Samet Oymak, Ankit Singh Rawat, Mahdi Soltanolkotabi, Christos
Thrampoulidis
- Abstract要約: 本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
- 参考スコア(独自算出の注目度): 90.97555030446563
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Prompt-tuning is an emerging strategy to adapt large language models (LLM) to
downstream tasks by learning a (soft-)prompt parameter from data. Despite its
success in LLMs, there is limited theoretical understanding of the power of
prompt-tuning and the role of the attention mechanism in prompting. In this
work, we explore prompt-tuning for one-layer attention architectures and study
contextual mixture-models where each input token belongs to a context-relevant
or -irrelevant set. We isolate the role of prompt-tuning through a
self-contained prompt-attention model. Our contributions are as follows: (1) We
show that softmax-prompt-attention is provably more expressive than
softmax-self-attention and linear-prompt-attention under our contextual data
model. (2) We analyze the initial trajectory of gradient descent and show that
it learns the prompt and prediction head with near-optimal sample complexity
and demonstrate how prompt can provably attend to sparse context-relevant
tokens. (3) Assuming a known prompt but an unknown prediction head, we
characterize the exact finite sample performance of prompt-attention which
reveals the fundamental performance limits and the precise benefit of the
context information. We also provide experiments that verify our theoretical
insights on real datasets and demonstrate how prompt-tuning enables the model
to attend to context-relevant information.
- Abstract(参考訳): Prompt-tuningは、(ソフト)promptパラメータをデータから学習することで、大規模言語モデル(LLM)を下流タスクに適応する新たな戦略である。
LLMでの成功にもかかわらず、プロンプトチューニングのパワーと注意機構の役割についての理論的理解は限られている。
本研究では,一層アテンションアーキテクチャのプロンプトチューニングと,各入力トークンがコンテキスト関連あるいは非関連集合に属するコンテキスト混合モデルについて検討する。
我々は,自己完結型プロンプトアテンションモデルにより,プロンプトチューニングの役割を分離する。
1) 文脈データモデルにおいて,softmax-prompt-attentionはsoftmax-self-attentionやlinear-prompt-attentionよりも表現力が高いことを示す。
2) 勾配降下の初期軌道を解析し, ほぼ最適サンプルの複雑度でプロンプトと予測ヘッドを学習し, プロンプトが文脈関連トークンの疎結合化にいかに有効かを示す。
3) 既知のプロンプトだが未知の予測ヘッドを仮定し, 基本性能限界と文脈情報の正確な利点を明らかにする, プロンプトアテンションの有限個のサンプル性能を特徴付ける。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
関連論文リスト
- IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Visual Attention Prompted Prediction and Learning [18.29952735827087]
本稿では,視覚的プロンプトを利用してモデルの推論過程を制御し,注意喚起による予測と学習のための新しい枠組みを提案する。
4つのデータセットを用いた実験により,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2023-10-12T15:39:54Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural
Language Understanding [51.48361798508375]
我々は,プロンプトと他のモデルパラメータ間の相互情報の最大化として,ソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。
本稿では,インフォプロンプトがプロンプトチューニングの収束を著しく加速し,従来のプロンプトチューニング手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-06-08T04:31:48Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。