論文の概要: The Unreliability of Explanations in Few-Shot In-Context Learning
- arxiv url: http://arxiv.org/abs/2205.03401v1
- Date: Fri, 6 May 2022 17:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:28:55.894767
- Title: The Unreliability of Explanations in Few-Shot In-Context Learning
- Title(参考訳): 短距離インテクスト学習における説明の不確実性
- Authors: Xi Ye and Greg Durrett
- Abstract要約: 我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
- 参考スコア(独自算出の注目度): 50.77996380021221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can prompting a large language model like GPT-3 with explanations improve
in-context learning? We focus specifically on two NLP tasks that involve
reasoning over text, namely question answering and natural language inference.
Including explanations in the prompt and having the model generate them does
not consistently improve performance in the settings we study, contrary to
recent results on symbolic reasoning tasks (Nye et al., 2021; Wei et al.,
2022). Despite careful prompting, explanations generated by GPT-3 may not even
be factually grounded in the input, even on simple tasks with straightforward
extractive explanations. However, these flawed explanations can still be useful
as a way to verify GPT-3's predictions post-hoc. Through analysis in three
settings, we show that explanations judged as good by humans--those that are
logically consistent with the input and the prediction--usually indicate more
accurate predictions. Following these observations, we present a framework for
calibrating model predictions based on the reliability of the explanations. Our
framework trains calibrators using automatically extracted scores that
approximately assess the reliability of explanations, which helps improve
performance across three different datasets.
- Abstract(参考訳): GPT-3のような大規模言語モデルでは、コンテキスト内学習を改善するにはどうすればよいのか?
テキストによる推論,すなわち質問応答と自然言語推論という2つのnlpタスクに注目した。
プロンプトに説明を含め、モデルが生成しても、シンボリック推論タスク(Nye et al., 2021; Wei et al., 2022)の最近の結果とは対照的に、我々が研究している設定におけるパフォーマンスは一貫して改善しない。
注意深いプロンプトにもかかわらず、gpt-3によって生成された説明は、単純な抽出的説明を持つ単純なタスクであっても、実際に入力に基づかないかもしれない。
しかし、これらの欠陥のある説明は、GPT-3の予測をポストホックで検証する方法として有用である。
3つの設定で分析した結果、入力と予測に論理的に整合した人間が判断した説明は、通常より正確な予測を示すことがわかった。
そこで本研究では,説明の信頼性に基づいてモデル予測の校正を行う枠組みを提案する。
我々のフレームワークは、説明の信頼性を概ね評価する自動抽出スコアを使用してキャリブレータを訓練し、3つの異なるデータセットのパフォーマンス向上を支援する。
関連論文リスト
- Explanation Selection Using Unlabeled Data for In-Context Learning [50.77996380021221]
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
そこで我々はまず,各事例の候補説明セットを,Left-one-outスキームを用いてプロンプトで生成する。
次に、2段階のフレームワークを使用し、プロキシメトリクスに従って各コンテキスト内の例に対する説明を分離して評価します。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは与えられたイベントペアに対してわずかなコンテキスト変更を行うので、システムはこの微妙なコンテキスト変化が時間的関係の分布にどのように影響するかを知る必要がある。
ToDAYの指導スタイルや説明アノテーションは共同学習に利用でき、より適切な信号を使用するようモデルに促すことができる。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Breakpoint Transformers for Modeling and Tracking Intermediate Beliefs [37.754787051387034]
本稿では,ブレークポイントモデリングと呼ばれる表現学習フレームワークを提案する。
私たちのアプローチは、中間表現を構築するために、効率的でエンドツーエンドの方法でモデルをトレーニングします。
我々は,従来の表現学習手法よりも,T5に基づく主要なブレークポイント変換器の利点を示す。
論文 参考訳(メタデータ) (2022-11-15T07:28:14Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - Reframing Human-AI Collaboration for Generating Free-Text Explanations [46.29832336779188]
少数の人間が記述した例を用いて,自由テキストの説明を生成する作業について考察する。
クラウドソースによる説明よりも,GPT-3による説明の方が好まれる。
我々は、GPT-3と教師付きフィルタを組み合わせたパイプラインを作成し、二項受理性判定を介し、ループ内人間を組み込む。
論文 参考訳(メタデータ) (2021-12-16T07:31:37Z) - Teach Me to Explain: A Review of Datasets for Explainable NLP [6.256505195819595]
説明可能なNLP(ExNLP)は、人間の注釈付き説明の収集にますます注力しています。
これらの説明は、予測タスクのパフォーマンスを改善するためのデータ拡張、モデルに予測を説明するための説明を訓練するための損失信号、モデル生成された説明の品質を評価する手段として、下流の3つの方法で使用される。
本稿では,3つの主要な説明クラス(highlights,free-text,structured)を特定し,各型に注釈を付けて文献を整理し,これまでに学んだことを指摘し,将来的にはexnlpデータセットの収集を推奨する。
論文 参考訳(メタデータ) (2021-02-24T04:25:01Z) - Calibrate Before Use: Improving Few-Shot Performance of Language Models [68.17016463756474]
GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
論文 参考訳(メタデータ) (2021-02-19T00:23:59Z) - Explain and Predict, and then Predict Again [6.865156063241553]
説明生成フェーズにおけるマルチタスク学習を用いたExPredを、効果的なトレードオフ説明と予測損失として提案します。
3つの多様な言語データセットに対するアプローチを幅広く評価しています。
論文 参考訳(メタデータ) (2021-01-11T19:36:52Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - Explanations of Black-Box Model Predictions by Contextual Importance and
Utility [1.7188280334580195]
本稿では,初級者だけでなく専門家が容易に理解できる説明を抽出するために,文脈重要度(CI)と文脈実用性(CU)の概念を提案する。
本手法は,モデルを解釈可能なモデルに変換することなく予測結果を説明する。
カーセレクションの例とアイリスの花分類における説明の有用性を,完全な(つまり,個人の予測の原因)と対照的な説明を提示することによって示す。
論文 参考訳(メタデータ) (2020-05-30T06:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。