論文の概要: Inference to the Best Explanation in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.10767v1
- Date: Fri, 16 Feb 2024 15:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:42:53.630344
- Title: Inference to the Best Explanation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける最良の説明
- Authors: Dhairya Dalal, Marco Valentino, Andr\'e Freitas, and Paul Buitelaar
- Abstract要約: Inference to the Best Explanation (IBE) に関する哲学的な記述から着想を得た IBE-Eval を提案する。
IBE-Evalは、明示的な論理的特徴と言語的特徴を組み合わせることで、自然言語の説明の妥当性を推定する。
実験の結果、IBE-Evalは77%の精度で最良の説明を特定できることがわかった。
- 参考スコア(独自算出の注目度): 6.037970847418495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have found success in real-world
applications, their underlying explanatory process is still poorly understood.
This paper proposes IBE-Eval, a framework inspired by philosophical accounts on
Inference to the Best Explanation (IBE) to advance the interpretation and
evaluation of LLMs' explanations. IBE-Eval estimates the plausibility of
natural language explanations through a combination of explicit logical and
linguistic features including: consistency, parsimony, coherence, and
uncertainty. Extensive experiments are conducted on Causal Question Answering
(CQA), where \textit{IBE-Eval} is tasked to select the most plausible causal
explanation amongst competing ones generated by LLMs (i.e., GPT 3.5 and Llama
2). The experiments reveal that IBE-Eval can successfully identify the best
explanation with up to 77\% accuracy ($\approx 27\%$ above random), improving
upon a GPT 3.5-as-a-Judge baseline ($\approx+17\%$) while being intrinsically
more efficient and interpretable. Additional analyses suggest that, despite
model-specific variances, LLM-generated explanations tend to conform to IBE
criteria and that IBE-Eval is significantly correlated with human judgment,
opening up opportunities for future development of automated explanation
verification tools.
- Abstract(参考訳): LLM(Large Language Models)は現実世界のアプリケーションで成功しているが、その基礎となる説明プロセスはまだ理解されていない。
本稿では,llmsの説明の解釈と評価を進めるために,最善の説明(ibe)に対する推論に関する哲学的説明から着想を得たフレームワーク ibe-eval を提案する。
ibe-evalは、一貫性、パリティ、コヒーレンス、不確実性を含む明示的な論理的特徴と言語的特徴の組み合わせによって、自然言語説明の可能性を推定する。
因果質問回答(Causal Question Answering, CQA)では, LLMs (GPT 3.5, Llama 2) が生成する競合するもののうち, もっとも妥当な因果説明を選択するよう指示される。
実験の結果、ibe-evalは最大77\%の精度(約27\%$)で最良の説明を識別でき、gpt 3.5-as-a-judgeベースライン(約17\%$)を改良し、本質的に効率的かつ解釈可能であることが判明した。
さらに, モデル固有の差異にもかかわらず, LLM による説明は IBE の基準に適合する傾向にあり, IBE-Eval は人間の判断と大きく相関し, 自動説明検証ツールの今後の開発機会が開けることが示唆された。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Large Language Models As Faithful Explainers [67.38301892818778]
大規模言語モデル(LLM)は近年,その豊富な内部知識と推論能力を活用することで,複雑なタスクに対処する技術に長けている。
我々は、LLMの自然言語形式で提供される説明の忠実性を改善するために、生成的説明フレームワークであるxLLMを導入する。
3つのNLUデータセットで行った実験により、xLLMは生成された説明の忠実性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - A Closer Look at the Self-Verification Abilities of Large Language
Models in Logical Reasoning [79.14479982371984]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Do Natural Language Explanations Represent Valid Logical Arguments?
Verifying Entailment in Explainable NLI Gold Standards [0.0]
説明可能なNLPの研究の新興ラインは、人間の注釈付き説明と合理性に富むデータセットの作成である。
人間の注釈付き説明は推論の根拠として使用されるが、それらの一貫性と厳密さの体系的な評価の欠如がある。
本論文では,ヒトの注釈付き説明の論理的妥当性を定量化するために,系統的アノテーション手法である説明関連検証(EEV)を提案する。
論文 参考訳(メタデータ) (2021-05-05T10:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。