論文の概要: On Measuring Faithfulness or Self-consistency of Natural Language
Explanations
- arxiv url: http://arxiv.org/abs/2311.07466v2
- Date: Sat, 10 Feb 2024 18:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:44:50.273565
- Title: On Measuring Faithfulness or Self-consistency of Natural Language
Explanations
- Title(参考訳): 自然言語説明の忠実性または自己矛盾性の測定について
- Authors: Letitia Parcalabescu and Anette Frank
- Abstract要約: 大規模言語モデル(LLM)は、ポストホックやチェーン・オブ・ソート(Chain-of-Thought)の説明を通じて予測を説明することができる。
最近の研究は、これらの説明の忠実さを判断するための試験を設計している。
これらのテストはモデルの内部動作に対する忠実さを測るものではなく、むしろ出力レベルでの自己整合性を測るものだ、と私たちは主張する。
- 参考スコア(独自算出の注目度): 26.433639269480345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can explain their predictions through post-hoc
or Chain-of-Thought (CoT) explanations. But an LLM could make up reasonably
sounding explanations that are unfaithful to its underlying reasoning. Recent
work has designed tests that aim to judge the faithfulness of post-hoc or CoT
explanations. In this work we argue that these faithfulness tests do not
measure faithfulness to the models' inner workings -- but rather their
self-consistency at output level. Our contributions are three-fold: i) We
clarify the status of faithfulness tests in view of model explainability,
characterising them as self-consistency tests instead. This assessment we
underline by ii) constructing a Comparative Consistency Bank for
self-consistency tests that for the first time compares existing tests on a
common suite of 11 open LLMs and 5 tasks -- including iii) our new
self-consistency measure CC-SHAP. CC-SHAP is a fine-grained measure (not a
test) of LLM self-consistency. It compares how a model's input contributes to
the predicted answer and to generating the explanation. Our fine-grained
CC-SHAP metric allows us iii) to compare LLM behaviour when making predictions
and to analyse the effect of other consistency tests at a deeper level, which
takes us one step further towards measuring faithfulness by bringing us closer
to the internals of the model than strictly surface output-oriented tests. Our
code is available at \url{https://github.com/Heidelberg-NLP/CC-SHAP}
- Abstract(参考訳): 大規模言語モデル(LLM)は、ポストホックまたはチェーン・オブ・ソート(CoT)の説明を通じて予測を説明することができる。
しかしLLMは、その根底にある理由に反する合理的な説明を作ることができる。
最近の研究は、ポストホックやCoTの説明の忠実さを判断する試験を設計している。
この研究では、これらの忠実度テストはモデルの内部動作への忠実度を測定するのではなく、出力レベルでの自己整合性を測定する。
私たちの貢献は3倍です。
一 モデル説明可能性の観点から忠実度テストの現状を明らかにし、代わりに自己整合性テストとして特徴づける。
この評価は下記の通りです
211のオープンllmと5つのタスクの共通スイートにおける既存のテストとを初めて比較した自己矛盾テストのための比較一貫性バンクの構築
iii)我々は,cc-shapの新たな自己整合性尺度を考案した。
CC-SHAP(CC-SHAP)は、LCM自己整合性の詳細な尺度(テストではない)である。
モデルの入力が予測された答えにどのように寄与するかを比較し、説明を生成する。
きめ細かいCC-SHAP測定でわかる
三 予測を行う際のLCMの挙動を比較し、他の整合性テストの効果をより深く分析するために、厳密な出力指向テストよりもモデルの内部に近づき、忠実度を測定するための一歩を踏み出した。
我々のコードは \url{https://github.com/Heidelberg-NLP/CC-SHAP} で入手できる。
関連論文リスト
- Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators [6.403926452181712]
大規模言語モデル(LLM)は、その答えの事実において信頼できない傾向にある。
本稿では,事実信頼度の推定者の調査と実証的比較について述べる。
実験により, 訓練された隠れ状態プローブが最も信頼性の高い信頼度を推定できることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T10:11:37Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models [24.144513068228903]
本稿では,インプット介入に基づく信頼度テストに使用できる指標である相関説明忠実度(CEF)について紹介する。
我々の測定基準は、モデルが予測するラベル分布の総シフトを考慮に入れている。
次に, 相関対実テスト(CCT)を導入し, 相関対実テスト(CEF)をインスタンス化する。
論文 参考訳(メタデータ) (2024-04-04T04:20:04Z) - Are self-explanations from Large Language Models faithful? [35.40666730867487]
大規模言語モデル(LLM)は多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。
自己説明がモデルの振舞いを本当に反映しているかを測定することが重要です。
信頼度を測定するために自己整合性チェックを採用することを提案する。
論文 参考訳(メタデータ) (2024-01-15T19:39:15Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。