論文の概要: The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.03189v2
- Date: Fri, 7 Jun 2024 11:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 19:28:06.753129
- Title: The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models
- Title(参考訳): 確率も重要:大規模言語モデルにおける自由テキスト記述の忠実度に関するより忠実な基準
- Authors: Noah Y. Siegel, Oana-Maria Camburu, Nicolas Heess, Maria Perez-Ortiz,
- Abstract要約: 本稿では,インプット介入に基づく信頼度テストに使用できる指標である相関説明忠実度(CEF)について紹介する。
我々の測定基準は、モデルが予測するラベル分布の総シフトを考慮に入れている。
次に, 相関対実テスト(CCT)を導入し, 相関対実テスト(CEF)をインスタンス化する。
- 参考スコア(独自算出の注目度): 24.144513068228903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to oversee advanced AI systems, it is important to understand their underlying decision-making process. When prompted, large language models (LLMs) can provide natural language explanations or reasoning traces that sound plausible and receive high ratings from human annotators. However, it is unclear to what extent these explanations are faithful, i.e., truly capture the factors responsible for the model's predictions. In this work, we introduce Correlational Explanatory Faithfulness (CEF), a metric that can be used in faithfulness tests based on input interventions. Previous metrics used in such tests take into account only binary changes in the predictions. Our metric accounts for the total shift in the model's predicted label distribution, more accurately reflecting the explanations' faithfulness. We then introduce the Correlational Counterfactual Test (CCT) by instantiating CEF on the Counterfactual Test (CT) from Atanasova et al. (2023). We evaluate the faithfulness of free-text explanations generated by few-shot-prompted LLMs from the Llama2 family on three NLP tasks. We find that our metric measures aspects of faithfulness which the CT misses.
- Abstract(参考訳): 先進的なAIシステムを監視するためには,その根底にある意思決定プロセスを理解することが重要である。
刺激を受けると、大きな言語モデル(LLM)は、人間のアノテータから高い評価を受けられるように聞こえる自然言語の説明や推論の痕跡を提供することができる。
しかし、これらの説明がどの程度忠実であるか、すなわち、モデルの予測に責任を負う要因を真に捉えているかは不明である。
本稿では、入力介入に基づく信頼度テストに使用できるメトリクスである相関説明信条(CEF)を紹介する。
このようなテストで使用される以前のメトリクスは、予測のバイナリ変更のみを考慮しています。
我々の測定基準は、モデルが予測するラベル分布の総変化を説明し、より正確に説明の忠実さを反映している。
次に,Atanasova et al (2023) から CEF on the Counterfactual Test (CT) をインスタンス化することによって相関対実テスト(CCT)を導入する。
3つのNLPタスクにおいて,Llama2ファミリーから数発のLLMが生成した自由文説明の忠実度を評価する。
我々は,CTが見逃す忠実さの側面を計測した。
関連論文リスト
- XForecast: Evaluating Natural Language Explanations for Time Series Forecasting [72.57427992446698]
時系列予測は、特に正確な予測に依存するステークホルダーにとって、意思決定を支援する。
伝統的に説明可能なAI(XAI)メソッドは、機能や時間的重要性を基盤とするものであり、専門家の知識を必要とすることが多い。
時系列データにおける複雑な因果関係のため,予測NLEの評価は困難である。
論文 参考訳(メタデータ) (2024-10-18T05:16:39Z) - Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - Automated Trustworthiness Testing for Machine Learning Classifiers [3.3423762257383207]
本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。
我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。
その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。
論文 参考訳(メタデータ) (2024-06-07T20:25:05Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Faithfulness Tests for Natural Language Explanations [87.01093277918599]
ニューラルモデルの説明は、その予測のためのモデルの意思決定プロセスを明らかにすることを目的としている。
近年の研究では,サリエンシマップやファクトファクトファクトダクトなどの説明を行う手法が誤解を招く可能性があることが示されている。
本研究は,自然言語の説明の忠実さを評価する上での課題について考察する。
論文 参考訳(メタデータ) (2023-05-29T11:40:37Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。