論文の概要: StablePT: Towards Stable Prompting for Few-shot Learning via Input Separation
- arxiv url: http://arxiv.org/abs/2404.19335v1
- Date: Tue, 30 Apr 2024 08:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:04:27.103657
- Title: StablePT: Towards Stable Prompting for Few-shot Learning via Input Separation
- Title(参考訳): StablePT:入力分離によるFew-shot学習のための安定的プロンプトを目指して
- Authors: Xiaoming Liu, Chen Liu, Zhaohan Zhang, Chengzhengxu Li, Longtian Wang, Yu Lan, Chao Shen,
- Abstract要約: sysnameは最先端メソッドの精度を7.20%向上させ、標準偏差を平均2.02削減する。
- 参考スコア(独自算出の注目度): 14.341806875791288
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have shown their ability to become effective few-shot learners with prompting, revoluting the paradigm of learning with data scarcity. However, this approach largely depends on the quality of prompt initialization, and always exhibits large variability among different runs. Such property makes prompt tuning highly unreliable and vulnerable to poorly constructed prompts, which limits its extension to more real-world applications. To tackle this issue, we propose to treat the hard prompt and soft prompt as separate inputs to mitigate noise brought by the prompt initialization. Furthermore, we optimize soft prompts with contrastive learning for utilizing class-aware information in the training process to maintain model performance. Experimental results demonstrate that \sysname outperforms state-of-the-art methods by 7.20% in accuracy and reduces the standard deviation by 2.02 on average. Furthermore, extensive experiments underscore its robustness and stability across 7 datasets covering various tasks.
- Abstract(参考訳): 大規模言語モデルは、データ不足による学習のパラダイムを推進し、再帰することで、効果的な数ショット学習者になる能力を示している。
しかし、このアプローチは素早い初期化の質に大きく依存しており、常に異なる実行時間間で大きな変動を示す。
このような特性により、プロンプトは信頼性が高く、貧弱なプロンプトに対して脆弱になり、より現実的なアプリケーションへの拡張が制限される。
この問題に対処するため、我々はハードプロンプトとソフトプロンプトを個別の入力として扱い、プロンプト初期化によるノイズを軽減することを提案する。
さらに、学習過程におけるクラス認識情報を利用してモデル性能を維持するために、コントラスト学習によるソフトプロンプトを最適化する。
実験結果から,<sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname
さらに、広範な実験は、さまざまなタスクをカバーする7つのデータセットの堅牢性と安定性を強調している。
関連論文リスト
- PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning [45.847259809950316]
本稿では,プログレッシブ微調整によるモデルパラメータへの迅速な知識を内部化するための新しい手法であるPromptInternを提案する。
提案手法は推論トークンの90%以上を削減し、推論を4.2倍に高速化し、88.3%の金銭的コストを節約する。
論文 参考訳(メタデータ) (2024-07-02T12:21:14Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Efficient Prompt Tuning by Multi-Space Projection and Prompt Fusion [9.55994486328914]
プロンプトチューニングは、大規模パラメータを再訓練することなく、事前訓練された言語モデルを微調整する有望な方法である。
既存の方法は精度と効率のバランスをとるのが難しい。
より長い(厳密な)ソフトプロンプトは、一般的には、より(より悪い)正確さをもたらすが、より(少ない)トレーニング時間に費やされる。
マルチスペースプロジェクションとプロンプト融合による効率的なプロンプトチューニング法(EPT)を提案する。
論文 参考訳(メタデータ) (2024-05-19T06:43:12Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural
Language Understanding [51.48361798508375]
我々は,プロンプトと他のモデルパラメータ間の相互情報の最大化として,ソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。
本稿では,インフォプロンプトがプロンプトチューニングの収束を著しく加速し,従来のプロンプトチューニング手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-06-08T04:31:48Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Evaluating the Robustness of Discrete Prompts [27.919548466481583]
我々は離散的なプロンプトの堅牢性について体系的な研究を行う。
2つの自然言語推論(NLI)データセットでそれらの性能を測定する。
提案手法は,NLI入力に対する摂動に対して比較的頑健であるが,シャッフルやプロンプトの削除といった他の種類の摂動に対して非常に敏感である。
論文 参考訳(メタデータ) (2023-02-11T07:01:53Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。