論文の概要: Inference to the Best Explanation in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.10767v1
- Date: Fri, 16 Feb 2024 15:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:42:53.630344
- Title: Inference to the Best Explanation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける最良の説明
- Authors: Dhairya Dalal, Marco Valentino, Andr\'e Freitas, and Paul Buitelaar
- Abstract要約: Inference to the Best Explanation (IBE) に関する哲学的な記述から着想を得た IBE-Eval を提案する。
IBE-Evalは、明示的な論理的特徴と言語的特徴を組み合わせることで、自然言語の説明の妥当性を推定する。
実験の結果、IBE-Evalは77%の精度で最良の説明を特定できることがわかった。
- 参考スコア(独自算出の注目度): 6.037970847418495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have found success in real-world
applications, their underlying explanatory process is still poorly understood.
This paper proposes IBE-Eval, a framework inspired by philosophical accounts on
Inference to the Best Explanation (IBE) to advance the interpretation and
evaluation of LLMs' explanations. IBE-Eval estimates the plausibility of
natural language explanations through a combination of explicit logical and
linguistic features including: consistency, parsimony, coherence, and
uncertainty. Extensive experiments are conducted on Causal Question Answering
(CQA), where \textit{IBE-Eval} is tasked to select the most plausible causal
explanation amongst competing ones generated by LLMs (i.e., GPT 3.5 and Llama
2). The experiments reveal that IBE-Eval can successfully identify the best
explanation with up to 77\% accuracy ($\approx 27\%$ above random), improving
upon a GPT 3.5-as-a-Judge baseline ($\approx+17\%$) while being intrinsically
more efficient and interpretable. Additional analyses suggest that, despite
model-specific variances, LLM-generated explanations tend to conform to IBE
criteria and that IBE-Eval is significantly correlated with human judgment,
opening up opportunities for future development of automated explanation
verification tools.
- Abstract(参考訳): LLM(Large Language Models)は現実世界のアプリケーションで成功しているが、その基礎となる説明プロセスはまだ理解されていない。
本稿では,llmsの説明の解釈と評価を進めるために,最善の説明(ibe)に対する推論に関する哲学的説明から着想を得たフレームワーク ibe-eval を提案する。
ibe-evalは、一貫性、パリティ、コヒーレンス、不確実性を含む明示的な論理的特徴と言語的特徴の組み合わせによって、自然言語説明の可能性を推定する。
因果質問回答(Causal Question Answering, CQA)では, LLMs (GPT 3.5, Llama 2) が生成する競合するもののうち, もっとも妥当な因果説明を選択するよう指示される。
実験の結果、ibe-evalは最大77\%の精度(約27\%$)で最良の説明を識別でき、gpt 3.5-as-a-judgeベースライン(約17\%$)を改良し、本質的に効率的かつ解釈可能であることが判明した。
さらに, モデル固有の差異にもかかわらず, LLM による説明は IBE の基準に適合する傾向にあり, IBE-Eval は人間の判断と大きく相関し, 自動説明検証ツールの今後の開発機会が開けることが示唆された。
関連論文リスト
- Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - RVISA: Reasoning and Verification for Implicit Sentiment Analysis [18.836998294161834]
暗黙の感情分析(ISA)は、表現に有能なキュー語が欠如していることで大きな課題となる。
本研究では,DO LLMの生成能力とED LLMの推論能力を利用した2段階推論フレームワークであるRVISAを提案する。
論文 参考訳(メタデータ) (2024-07-02T15:07:54Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Do Natural Language Explanations Represent Valid Logical Arguments?
Verifying Entailment in Explainable NLI Gold Standards [0.0]
説明可能なNLPの研究の新興ラインは、人間の注釈付き説明と合理性に富むデータセットの作成である。
人間の注釈付き説明は推論の根拠として使用されるが、それらの一貫性と厳密さの体系的な評価の欠如がある。
本論文では,ヒトの注釈付き説明の論理的妥当性を定量化するために,系統的アノテーション手法である説明関連検証(EEV)を提案する。
論文 参考訳(メタデータ) (2021-05-05T10:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。