論文の概要: The Unreliability of Explanations in Few-Shot In-Context Learning
- arxiv url: http://arxiv.org/abs/2205.03401v1
- Date: Fri, 6 May 2022 17:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:28:55.894767
- Title: The Unreliability of Explanations in Few-Shot In-Context Learning
- Title(参考訳): 短距離インテクスト学習における説明の不確実性
- Authors: Xi Ye and Greg Durrett
- Abstract要約: 我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
- 参考スコア(独自算出の注目度): 50.77996380021221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can prompting a large language model like GPT-3 with explanations improve
in-context learning? We focus specifically on two NLP tasks that involve
reasoning over text, namely question answering and natural language inference.
Including explanations in the prompt and having the model generate them does
not consistently improve performance in the settings we study, contrary to
recent results on symbolic reasoning tasks (Nye et al., 2021; Wei et al.,
2022). Despite careful prompting, explanations generated by GPT-3 may not even
be factually grounded in the input, even on simple tasks with straightforward
extractive explanations. However, these flawed explanations can still be useful
as a way to verify GPT-3's predictions post-hoc. Through analysis in three
settings, we show that explanations judged as good by humans--those that are
logically consistent with the input and the prediction--usually indicate more
accurate predictions. Following these observations, we present a framework for
calibrating model predictions based on the reliability of the explanations. Our
framework trains calibrators using automatically extracted scores that
approximately assess the reliability of explanations, which helps improve
performance across three different datasets.
- Abstract(参考訳): GPT-3のような大規模言語モデルでは、コンテキスト内学習を改善するにはどうすればよいのか?
テキストによる推論,すなわち質問応答と自然言語推論という2つのnlpタスクに注目した。
プロンプトに説明を含め、モデルが生成しても、シンボリック推論タスク(Nye et al., 2021; Wei et al., 2022)の最近の結果とは対照的に、我々が研究している設定におけるパフォーマンスは一貫して改善しない。
注意深いプロンプトにもかかわらず、gpt-3によって生成された説明は、単純な抽出的説明を持つ単純なタスクであっても、実際に入力に基づかないかもしれない。
しかし、これらの欠陥のある説明は、GPT-3の予測をポストホックで検証する方法として有用である。
3つの設定で分析した結果、入力と予測に論理的に整合した人間が判断した説明は、通常より正確な予測を示すことがわかった。
そこで本研究では,説明の信頼性に基づいてモデル予測の校正を行う枠組みを提案する。
我々のフレームワークは、説明の信頼性を概ね評価する自動抽出スコアを使用してキャリブレータを訓練し、3つの異なるデータセットのパフォーマンス向上を支援する。
関連論文リスト
- XForecast: Evaluating Natural Language Explanations for Time Series Forecasting [72.57427992446698]
時系列予測は、特に正確な予測に依存するステークホルダーにとって、意思決定を支援する。
伝統的に説明可能なAI(XAI)メソッドは、機能や時間的重要性を基盤とするものであり、専門家の知識を必要とすることが多い。
時系列データにおける複雑な因果関係のため,予測NLEの評価は困難である。
論文 参考訳(メタデータ) (2024-10-18T05:16:39Z) - Can Language Models Explain Their Own Classification Behavior? [1.8177391253202122]
大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。
本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。
私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。
論文 参考訳(メタデータ) (2024-05-13T02:31:08Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - FLamE: Few-shot Learning from Natural Language Explanations [12.496665033682202]
本稿では,自然言語の説明から学習するフレームワークFLamEを紹介する。
自然言語推論の実験は、強いベースラインに対する効果を示す。
人間の評価は、生成した説明の大多数が適切に分類決定を正当化していないことを驚くほど明らかにしている。
論文 参考訳(メタデータ) (2023-06-13T18:01:46Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Reframing Human-AI Collaboration for Generating Free-Text Explanations [46.29832336779188]
少数の人間が記述した例を用いて,自由テキストの説明を生成する作業について考察する。
クラウドソースによる説明よりも,GPT-3による説明の方が好まれる。
我々は、GPT-3と教師付きフィルタを組み合わせたパイプラインを作成し、二項受理性判定を介し、ループ内人間を組み込む。
論文 参考訳(メタデータ) (2021-12-16T07:31:37Z) - Teach Me to Explain: A Review of Datasets for Explainable NLP [6.256505195819595]
説明可能なNLP(ExNLP)は、人間の注釈付き説明の収集にますます注力しています。
これらの説明は、予測タスクのパフォーマンスを改善するためのデータ拡張、モデルに予測を説明するための説明を訓練するための損失信号、モデル生成された説明の品質を評価する手段として、下流の3つの方法で使用される。
本稿では,3つの主要な説明クラス(highlights,free-text,structured)を特定し,各型に注釈を付けて文献を整理し,これまでに学んだことを指摘し,将来的にはexnlpデータセットの収集を推奨する。
論文 参考訳(メタデータ) (2021-02-24T04:25:01Z) - Calibrate Before Use: Improving Few-Shot Performance of Language Models [68.17016463756474]
GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
論文 参考訳(メタデータ) (2021-02-19T00:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。