論文の概要: An Information-theoretic Approach to Prompt Engineering Without Ground
Truth Labels
- arxiv url: http://arxiv.org/abs/2203.11364v1
- Date: Mon, 21 Mar 2022 21:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 10:54:25.019413
- Title: An Information-theoretic Approach to Prompt Engineering Without Ground
Truth Labels
- Title(参考訳): 地味ラベルのないプロンプト工学への情報理論的アプローチ
- Authors: Taylor Sorensen, Joshua Robinson, Christopher Michael Rytting,
Alexander Glenn Shaw, Kyle Jeffrey Rogers, Alexia Pauline Delorey, Mahmoud
Khalil, Nancy Fulda, David Wingate
- Abstract要約: 我々は、ラベル付き例やtextitwithout のモデルへの直接アクセスなしに、プロンプトテンプレートを選択する新しい方法を提案する。
7つの異なるNLPタスクを表す8つのデータセットにまたがって、テンプレートが高い相互情報を持つ場合、そのタスクに対して高い精度を持つことを示す。
- 参考スコア(独自算出の注目度): 55.06990011183662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models derive substantial linguistic and factual
knowledge from the massive corpora on which they are trained, and prompt
engineering seeks to align these models to specific tasks. Unfortunately,
existing prompt engineering methods require significant amounts of labeled
data, access to model parameters, or both. We introduce a new method for
selecting prompt templates \textit{without labeled examples} and
\textit{without direct access to the model}. Specifically, over a set of
candidate templates, we choose the template that maximizes the mutual
information between the input and the corresponding model output. Across 8
datasets representing 7 distinct NLP tasks, we show that when a template has
high mutual information, it also has high accuracy on the task. On the largest
model, selecting prompts with our method gets 90\% of the way from the average
prompt accuracy to the best prompt accuracy and requires no ground truth
labels.
- Abstract(参考訳): 事前訓練された言語モデルは、訓練された大量のコーパスから言語的および事実的な知識をかなり引き起こし、エンジニアリングはこれらのモデルを特定のタスクに合わせることを目指している。
残念ながら、既存のプロンプトエンジニアリング手法は、大量のラベル付きデータ、モデルパラメータへのアクセス、あるいはその両方を必要とする。
本稿では,プロンプトテンプレートである \textit{without labeled examples} と \textit{without direct access to the model} を選択する新しい方法を提案する。
具体的には、候補テンプレートのセット上で、入力と対応するモデル出力間の相互情報を最大化するテンプレートを選択します。
7つの異なるnlpタスクを表す8つのデータセットにまたがって、テンプレートが高い相互情報を持っている場合、タスクの精度も高いことを示す。
最大モデルでは,提案手法でプロンプトを選択すると,平均プロンプト精度から最良プロンプト精度まで90%の精度が得られ,基底真理ラベルは不要となる。
関連論文リスト
- Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - A Systematic Survey of Prompt Engineering in Large Language Models:
Techniques and Applications [11.568575664316143]
本稿では,応用分野別に分類した,最近のプロンプト工学の進歩について概説する。
本稿では、プロンプト手法、その応用、関連するモデル、利用したデータセットについて詳述する。
この体系的な分析は、この急速に発展している分野をよりよく理解し、オープンな課題と迅速なエンジニアリングの機会を照明することによって将来の研究を促進する。
論文 参考訳(メタデータ) (2024-02-05T19:49:13Z) - Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements [10.687101698324897]
大規模な言語モデルは、いくつかの例から新しいタスクを解くための驚くべき能力を示している。
プロンプトテンプレート、あるいはインプット例をフォーマットしてプロンプトを取得する方法は、コンテキスト内学習の重要な側面であるが、見過ごされがちである。
テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。
論文 参考訳(メタデータ) (2024-01-12T18:58:26Z) - PromptNER: Prompt Locating and Typing for Named Entity Recognition [39.81221703760443]
本稿では,位置スロットとタイプスロットを備えたデュアルスロットマルチプロンプトテンプレートを設計し,位置決めとタイピングを高速化する。
複数のプロンプトを同時にモデルに入力し、そのモデルがスロット上の並列予測によってすべてのエンティティを抽出する。
実験結果から,提案手法は特にクロスドメイン・ショット・セッティングにおいて,大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2023-05-26T17:16:11Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Small Character Models Match Large Word Models for Autocomplete Under
Memory Constraints [32.79377465262468]
低周波ユーザプロンプトパターンからなるより困難なオープンドメイン設定について検討する。
文字ベースの表現は、全体のモデルサイズを減らすのに効果的である。
本研究では,20Mパラメータのキャラクタモデルが,バニラ設定における80Mパラメータのワードモデルと類似して動作することを示す。
論文 参考訳(メタデータ) (2022-10-06T23:29:59Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Template-free Prompt Tuning for Few-shot NER [46.59447116255979]
テンプレートを使わずにNERタスクをLM問題として再構成するよりエレガントな手法を提案する。
具体的には,事前学習モデルの単語予測パラダイムを維持しながらテンプレート構築プロセスを捨てる。
実験により, バート・タガー法およびテンプレートベース法に対して, 数ショット設定で提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-09-28T07:19:24Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。