論文の概要: On Measuring Faithfulness of Natural Language Explanations
- arxiv url: http://arxiv.org/abs/2311.07466v1
- Date: Mon, 13 Nov 2023 16:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:35:24.374771
- Title: On Measuring Faithfulness of Natural Language Explanations
- Title(参考訳): 自然言語説明の忠実度測定について
- Authors: Letitia Parcalabescu and Anette Frank
- Abstract要約: 大規模言語モデル(LLM)は、ポストホックまたはチェーン・オブ・ソート(Chain-of-Thought)の説明を通じて、自身の予測を説明することができる。
最近の研究は、ポストホックまたはCoTの説明の忠実さを判断する試験を設計している。
既存の忠実度テストは、モデルの内部動作の観点からの忠実度を実際に測定するものではなく、出力レベルでの自己整合性のみを評価するものである、と我々は主張する。
- 参考スコア(独自算出の注目度): 26.433639269480345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can explain their own predictions, through
post-hoc or Chain-of-Thought (CoT) explanations. However the LLM could make up
reasonably sounding explanations that are unfaithful to its underlying
reasoning. Recent work has designed tests that aim to judge the faithfulness of
either post-hoc or CoT explanations. In this paper we argue that existing
faithfulness tests are not actually measuring faithfulness in terms of the
models' inner workings, but only evaluate their self-consistency on the output
level. The aims of our work are two-fold. i) We aim to clarify the status of
existing faithfulness tests in terms of model explainability, characterising
them as self-consistency tests instead. This assessment we underline by
constructing a Comparative Consistency Bank for self-consistency tests that for
the first time compares existing tests on a common suite of 11 open-source LLMs
and 5 datasets -- including ii) our own proposed self-consistency measure
CC-SHAP. CC-SHAP is a new fine-grained measure (not test) of LLM
self-consistency that compares a model's input contributions to answer
prediction and generated explanation. With CC-SHAP, we aim to take a step
further towards measuring faithfulness with a more interpretable and
fine-grained method. Code available at
\url{https://github.com/Heidelberg-NLP/CC-SHAP}
- Abstract(参考訳): 大規模言語モデル(LLM)は、ポストホックまたはチェーン・オブ・ソート(CoT)の説明を通じて、自身の予測を説明することができる。
しかしLLMは、その根底にある推論に反する合理的な説明を作ることができる。
最近の研究は、ポストホックまたはCoTの説明の忠実さを判断する試験を設計している。
本稿では,既存の忠実性テストは,モデルの内部動作の観点からは実際に忠実性を測定するのではなく,出力レベルでの自己一貫性を評価するものであることを論じる。
私たちの仕事の目的は2つです。
一 モデル説明可能性の観点から既存の忠実度テストの現状を明らかにすることを目指しており、代わりに自己整合性テストとして特徴付ける。
この評価は、自己整合性テストのための比較整合性銀行を構築し、11のオープンソースLLMと5つのデータセットからなる共通スイートにおける既存のテストとを初めて比較することで下記の通りです。
ii)我々は,cc-shapの自己抵抗尺度を提案している。
cc-shapは、モデルの入力貢献と回答予測と生成した説明を比較する、llm自己一貫性の新しい細かな尺度(テストではない)である。
CC-SHAPでは,より解釈可能できめ細かい方法で忠実度を測定することを目指している。
コードは \url{https://github.com/heidelberg-nlp/cc-shap}
関連論文リスト
- Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators [6.403926452181712]
大規模言語モデル(LLM)は、その答えの事実において信頼できない傾向にある。
本稿では,事実信頼度の推定者の調査と実証的比較について述べる。
実験により, 訓練された隠れ状態プローブが最も信頼性の高い信頼度を推定できることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T10:11:37Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models [24.144513068228903]
本稿では,インプット介入に基づく信頼度テストに使用できる指標である相関説明忠実度(CEF)について紹介する。
我々の測定基準は、モデルが予測するラベル分布の総シフトを考慮に入れている。
次に, 相関対実テスト(CCT)を導入し, 相関対実テスト(CEF)をインスタンス化する。
論文 参考訳(メタデータ) (2024-04-04T04:20:04Z) - Are self-explanations from Large Language Models faithful? [35.40666730867487]
大規模言語モデル(LLM)は多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。
自己説明がモデルの振舞いを本当に反映しているかを測定することが重要です。
信頼度を測定するために自己整合性チェックを採用することを提案する。
論文 参考訳(メタデータ) (2024-01-15T19:39:15Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。