論文の概要: TEMPERA: Test-Time Prompting via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.11890v1
- Date: Mon, 21 Nov 2022 22:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:32:04.425119
- Title: TEMPERA: Test-Time Prompting via Reinforcement Learning
- Title(参考訳): TEMPERA:強化学習によるテスト時間プロンプト
- Authors: Tianjun Zhang, Xuezhi Wang, Denny Zhou, Dale Schuurmans, Joseph E.
Gonzalez
- Abstract要約: 強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
- 参考スコア(独自算出の注目度): 57.48657629588436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Careful prompt design is critical to the use of large language models in
zero-shot or few-shot learning. As a consequence, there is a growing interest
in automated methods to design optimal prompts. In this work, we propose
Test-time Prompt Editing using Reinforcement learning (TEMPERA). In contrast to
prior prompt generation methods, TEMPERA can efficiently leverage prior
knowledge, is adaptive to different queries and provides an interpretable
prompt for every query. To achieve this, we design a novel action space that
allows flexible editing of the initial prompts covering a wide set of
commonly-used components like instructions, few-shot exemplars, and
verbalizers. The proposed method achieves significant gains compared with
recent SoTA approaches like prompt tuning, AutoPrompt, and RLPrompt, across a
variety of tasks including sentiment analysis, topic classification, natural
language inference, and reading comprehension. Our method achieves 5.33x on
average improvement in sample efficiency when compared to the traditional
fine-tuning methods.
- Abstract(参考訳): 注意深いプロンプトデザインは、ゼロショットまたは少数ショット学習における大きな言語モデルの使用に不可欠である。
その結果、最適なプロンプトを設計する自動化手法への関心が高まっている。
本研究では,Reinforcement Learning (TEMPERA) を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用でき、異なるクエリに適応し、クエリ毎に解釈可能なプロンプトを提供する。
これを実現するために、命令、少数ショット例、動詞化子など、広く使われている幅広いコンポーネントをカバーする初期プロンプトを柔軟に編集できる新しいアクション空間を設計する。
提案手法は,感情分析,トピック分類,自然言語推論,読解理解など,様々なタスクにおいて,プロンプトチューニングやオートプロンプト,RLプロンプトといった最近のSoTA手法と比較して,顕著に向上する。
従来の微調整法と比較して試料効率が平均5.33倍向上した。
関連論文リスト
- Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [24.855142164168605]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - ConsPrompt: Exploiting Contrastive Samples for Fewshot Prompt Learning [37.219617741198334]
本研究では,プロンプト表現のロバスト性を改善するために,適切なコントラストサンプルと多自由度コントラスト学習手法について検討する。
以上の結果から, 高速微調整プロセスにおける多自由度コントラスト学習の有効性が証明された。
論文 参考訳(メタデータ) (2022-11-08T09:29:45Z) - IDPG: An Instance-Dependent Prompt Generation Method [58.45110542003139]
Prompt tuningは、モデルトレーニング段階で各入力インスタンスにタスク固有のプロンプトを追加する、新しい、効率的なNLP転送学習パラダイムである。
本稿では,各入力インスタンスのプロンプトを生成する条件付きプロンプト生成手法を提案する。
論文 参考訳(メタデータ) (2022-04-09T15:45:27Z) - Making Pre-trained Language Models End-to-end Few-shot Learners with
Contrastive Prompt Tuning [41.15017636192417]
CP-Tuning(CP-Tuning)は、言語モデルのための最初のエンドツーエンドのPrompt Tuningフレームワークである。
完全にトレーニング可能なプロンプトパラメータを持つタスク不変の連続プロンプトエンコーディング技術と統合されている。
IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-04-01T02:24:24Z) - Instance-aware Prompt Learning for Language Understanding and Generation [49.22899822734549]
本稿では,インスタンス毎に異なるプロンプトを学習するインスタンス対応プロンプト学習手法を提案する。
提案手法は,SuperGLUE数ショット学習ベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-18T17:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。