論文の概要: StablePT: Towards Stable Prompting for Few-shot Learning via Input Separation
- arxiv url: http://arxiv.org/abs/2404.19335v2
- Date: Thu, 03 Oct 2024 07:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:34.358330
- Title: StablePT: Towards Stable Prompting for Few-shot Learning via Input Separation
- Title(参考訳): StablePT:入力分離によるFew-shot学習のための安定的プロンプトを目指して
- Authors: Xiaoming Liu, Chen Liu, Zhaohan Zhang, Chengzhengxu Li, Longtian Wang, Yu Lan, Chao Shen,
- Abstract要約: sysnameは最先端の手法を6.97%精度で上回り、標準偏差を平均1.92倍に下げる。
テストは、さまざまなタスクをカバーする8つのデータセットの堅牢性と安定性を強調している。
- 参考スコア(独自算出の注目度): 14.341806875791288
- License:
- Abstract: Large language models have shown their ability to become effective few-shot learners with prompting, revolutionizing the paradigm of learning with data scarcity. However, this approach largely depends on the quality of prompt initialization, and always exhibits large variability among different runs. Such property makes prompt tuning highly unreliable and vulnerable to poorly constructed prompts, which limits its extension to more real-world applications. To tackle this issue, we propose to treat the hard prompt and soft prompt as separate inputs to mitigate noise brought by the prompt initialization. Furthermore, we optimize soft prompts with contrastive learning for utilizing class-aware information in the training process to maintain model performance. Experimental results demonstrate that \sysname outperforms state-of-the-art methods by 6.97% in accuracy and reduces the standard deviation by 1.92 on average. Furthermore, extensive experiments underscore its robustness and stability across 8 datasets covering various tasks. Codes are available at https://github.com/lccc0528/Stable/tree/main.
- Abstract(参考訳): 大規模言語モデルは、データ不足による学習のパラダイムを推進し、革新することで、効果的な数ショット学習者になる能力を示している。
しかし、このアプローチは素早い初期化の質に大きく依存しており、常に異なる実行時間間で大きな変動を示す。
このような特性により、プロンプトは信頼性が高く、貧弱なプロンプトに対して脆弱になり、より現実的なアプリケーションへの拡張が制限される。
この問題に対処するため、我々はハードプロンプトとソフトプロンプトを個別の入力として扱い、プロンプト初期化によるノイズを軽減することを提案する。
さらに、学習過程におけるクラス認識情報を利用してモデル性能を維持するために、コントラスト学習によるソフトプロンプトを最適化する。
実験結果から,<sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sys
さらに、広範囲な実験は、さまざまなタスクをカバーする8つのデータセットの堅牢性と安定性を強調している。
コードはhttps://github.com/lccc0528/Stable/tree/main.comで入手できる。
関連論文リスト
- Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability [67.77534983324229]
本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。
実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。
以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
論文 参考訳(メタデータ) (2024-10-15T17:05:25Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Efficient Prompt Tuning by Multi-Space Projection and Prompt Fusion [9.55994486328914]
プロンプトチューニングは、大規模パラメータを再訓練することなく、事前訓練された言語モデルを微調整する有望な方法である。
既存の方法は精度と効率のバランスをとるのが難しい。
より長い(厳密な)ソフトプロンプトは、一般的には、より(より悪い)正確さをもたらすが、より(少ない)トレーニング時間に費やされる。
マルチスペースプロジェクションとプロンプト融合による効率的なプロンプトチューニング法(EPT)を提案する。
論文 参考訳(メタデータ) (2024-05-19T06:43:12Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural
Language Understanding [51.48361798508375]
我々は,プロンプトと他のモデルパラメータ間の相互情報の最大化として,ソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。
本稿では,インフォプロンプトがプロンプトチューニングの収束を著しく加速し,従来のプロンプトチューニング手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-06-08T04:31:48Z) - Evaluating the Robustness of Discrete Prompts [27.919548466481583]
我々は離散的なプロンプトの堅牢性について体系的な研究を行う。
2つの自然言語推論(NLI)データセットでそれらの性能を測定する。
提案手法は,NLI入力に対する摂動に対して比較的頑健であるが,シャッフルやプロンプトの削除といった他の種類の摂動に対して非常に敏感である。
論文 参考訳(メタデータ) (2023-02-11T07:01:53Z) - CODA-Prompt: COntinual Decomposed Attention-based Prompting for
Rehearsal-Free Continual Learning [30.676509834338884]
コンピュータビジョンモデルは、継続的なトレーニングデータから新しい概念を学ぶ際に、破滅的な忘れという現象に悩まされる。
データリハーサルに代わるアプローチを提案する。
我々は,従来のSOTA法であるDualPromptを,平均的な最終精度で最大4.5%上回っていることを示す。
論文 参考訳(メタデータ) (2022-11-23T18:57:11Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。