論文の概要: The Unreliability of Explanations in Few-Shot In-Context Learning
- arxiv url: http://arxiv.org/abs/2205.03401v1
- Date: Fri, 6 May 2022 17:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:28:55.894767
- Title: The Unreliability of Explanations in Few-Shot In-Context Learning
- Title(参考訳): 短距離インテクスト学習における説明の不確実性
- Authors: Xi Ye and Greg Durrett
- Abstract要約: 我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
- 参考スコア(独自算出の注目度): 50.77996380021221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can prompting a large language model like GPT-3 with explanations improve
in-context learning? We focus specifically on two NLP tasks that involve
reasoning over text, namely question answering and natural language inference.
Including explanations in the prompt and having the model generate them does
not consistently improve performance in the settings we study, contrary to
recent results on symbolic reasoning tasks (Nye et al., 2021; Wei et al.,
2022). Despite careful prompting, explanations generated by GPT-3 may not even
be factually grounded in the input, even on simple tasks with straightforward
extractive explanations. However, these flawed explanations can still be useful
as a way to verify GPT-3's predictions post-hoc. Through analysis in three
settings, we show that explanations judged as good by humans--those that are
logically consistent with the input and the prediction--usually indicate more
accurate predictions. Following these observations, we present a framework for
calibrating model predictions based on the reliability of the explanations. Our
framework trains calibrators using automatically extracted scores that
approximately assess the reliability of explanations, which helps improve
performance across three different datasets.
- Abstract(参考訳): GPT-3のような大規模言語モデルでは、コンテキスト内学習を改善するにはどうすればよいのか?
テキストによる推論,すなわち質問応答と自然言語推論という2つのnlpタスクに注目した。
プロンプトに説明を含め、モデルが生成しても、シンボリック推論タスク(Nye et al., 2021; Wei et al., 2022)の最近の結果とは対照的に、我々が研究している設定におけるパフォーマンスは一貫して改善しない。
注意深いプロンプトにもかかわらず、gpt-3によって生成された説明は、単純な抽出的説明を持つ単純なタスクであっても、実際に入力に基づかないかもしれない。
しかし、これらの欠陥のある説明は、GPT-3の予測をポストホックで検証する方法として有用である。
3つの設定で分析した結果、入力と予測に論理的に整合した人間が判断した説明は、通常より正確な予測を示すことがわかった。
そこで本研究では,説明の信頼性に基づいてモデル予測の校正を行う枠組みを提案する。
我々のフレームワークは、説明の信頼性を概ね評価する自動抽出スコアを使用してキャリブレータを訓練し、3つの異なるデータセットのパフォーマンス向上を支援する。
関連論文リスト
- Embroid: Unsupervised Prediction Smoothing Can Improve Few-Shot
Classification [20.85088711770188]
ラベル付きデータを追加せずに即時学習を改善することができることを示す。
組込み関数の異なるデータセットの複数の表現を演算するEmbroidを提案する。
Embroidはオリジナルのプロンプトよりも性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:07:28Z) - FLamE: Few-shot Learning from Natural Language Explanations [12.496665033682202]
本稿では,自然言語の説明から学習するフレームワークFLamEを紹介する。
自然言語推論の実験は、強いベースラインに対する効果を示す。
人間の評価は、生成した説明の大多数が適切に分類決定を正当化していないことを驚くほど明らかにしている。
論文 参考訳(メタデータ) (2023-06-13T18:01:46Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - OPT-R: Exploring the Role of Explanations in Finetuning and Prompting
for Reasoning Skills of Large Language Models [48.412284346337344]
我々はLarge Language Models(LLMs)の推論能力について徹底的な調査を行っている。
本研究は,Open Pretrained Transformers (OPT) の3つの異なるサイズを微調整する。
次に、SUPER-NATURALINSTRUCTIONSベンチマークから引き出された57の領域外タスクについて、全てのモデルを評価する。
論文 参考訳(メタデータ) (2023-05-19T20:58:22Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - Reframing Human-AI Collaboration for Generating Free-Text Explanations [46.29832336779188]
少数の人間が記述した例を用いて,自由テキストの説明を生成する作業について考察する。
クラウドソースによる説明よりも,GPT-3による説明の方が好まれる。
我々は、GPT-3と教師付きフィルタを組み合わせたパイプラインを作成し、二項受理性判定を介し、ループ内人間を組み込む。
論文 参考訳(メタデータ) (2021-12-16T07:31:37Z) - Teach Me to Explain: A Review of Datasets for Explainable NLP [6.256505195819595]
説明可能なNLP(ExNLP)は、人間の注釈付き説明の収集にますます注力しています。
これらの説明は、予測タスクのパフォーマンスを改善するためのデータ拡張、モデルに予測を説明するための説明を訓練するための損失信号、モデル生成された説明の品質を評価する手段として、下流の3つの方法で使用される。
本稿では,3つの主要な説明クラス(highlights,free-text,structured)を特定し,各型に注釈を付けて文献を整理し,これまでに学んだことを指摘し,将来的にはexnlpデータセットの収集を推奨する。
論文 参考訳(メタデータ) (2021-02-24T04:25:01Z) - Calibrate Before Use: Improving Few-Shot Performance of Language Models [68.17016463756474]
GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
論文 参考訳(メタデータ) (2021-02-19T00:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。