論文の概要: Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth
- arxiv url: http://arxiv.org/abs/2605.25052v1
- Date: Sun, 24 May 2026 12:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.733712
- Title: Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth
- Title(参考訳): Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth
- Authors: Yoav Gur-Arieh, Ana Marasović, Mor Geva,
- Abstract要約: 思考の連鎖(CoT)は、大規模言語モデルの解釈と監査行動の中心となっている。
ステップレベルとCoTレベルの両方で、地道忠実度ラベルを出力する自動ラベリングパイプラインを開発した。
実験の結果,ほとんどの測定値が近い確率で動作し,予測バイアスが強く,CoTが長くなると劣化することがわかった。
- 参考スコア(独自算出の注目度): 24.21103008618097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chains of thought (CoTs) have become central in interpreting and auditing behaviors of large language models. Yet growing evidence suggests that these traces often fail to faithfully represent the computations behind a model's predictions. Several faithfulness metrics have been proposed, but whether they indeed measure faithfulness remains unknown. Answering this requires ground-truth labels, which are hard to obtain since internal computations are not directly observable. Consequently, most works proposing metrics report only absolute scores or comparisons to prior metrics, and the few existing benchmarks rely on proxies like plausibility or importance, properties orthogonal to faithfulness that can mislead about whether a CoT can be trusted. We address this challenge by constructing tasks whose outputs reveal which intermediate computations must have produced them, and developing an automated labeling pipeline that yields ground-truth faithfulness labels at both the step and CoT level. Building on this methodology, we present BonaFide, a benchmark of 3,066 labeled CoTs across 13 tasks and 10 models, and use it to conduct the first systematic evaluation of prominent faithfulness metrics. Our experiments show that most metrics perform near chance, exhibit strong prediction biases and degrade on longer CoTs. The best metric reaches only 0.70 AUROC at the CoT level while another reaches 0.59 at the step level, with neither transferring across settings, while entailing prohibitively high computational cost. Our results expose fundamental gaps in current faithfulness evaluation and call for the development of more reliable and efficient metrics.
- Abstract(参考訳): 思考の連鎖(CoT)は、大規模言語モデルの解釈と監査行動の中心となっている。
しかし、増大する証拠は、これらのトレースがしばしばモデルの予測の背後にある計算を忠実に表現できないことを示唆している。
いくつかの忠実度指標が提案されているが、それらが実際に忠実度を測定するかどうかは不明である。
内部計算は直接観測できないので入手が困難である。
既存のベンチマークでは、CoTが信頼できるかどうかを誤解させる可能性のある、信頼性や信頼性に直交するプロパティである、可視性や重要性といったプロキシに依存しています。
この課題は,どの中間計算が生成しなければならないかを出力するタスクを構築し,ステップレベルとCoTレベルの両方で真真正性ラベルを出力する自動ラベリングパイプラインを開発することで解決される。
この方法論に基づいて、13のタスクと10のモデルにわたる3,066のラベル付きCoTのベンチマークであるBonaFideを紹介します。
実験の結果,ほとんどの測定値が近い確率で動作し,予測バイアスが強く,CoTが長くなると劣化することがわかった。
最高基準は CoT レベルで 0.70 AUROC に達し、もう1つはステップレベルで 0.59 に達している。
その結果、現在の忠実度評価における根本的なギャップが明らかとなり、より信頼性が高く効率的なメトリクスの開発が求められている。
関連論文リスト
- Are We Overconfident in Models and Results for Semi-Supervised 3D Medical Image Segmentation? [4.120238673372104]
半教師付き学習は、アノテーションのコストを削減する主要なパラダイムとなっている。
現在の進歩は2倍の過信問題によって曇っていると我々は主張する。
本稿では,二軸信頼性評価エンジン上に構築した三空間原理分割フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T08:16:40Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。