論文の概要: Measuring Faithfulness Depends on How You Measure: Classifier Sensitivity in LLM Chain-of-Thought Evaluation
- arxiv url: http://arxiv.org/abs/2603.20172v2
- Date: Mon, 23 Mar 2026 21:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.584792
- Title: Measuring Faithfulness Depends on How You Measure: Classifier Sensitivity in LLM Chain-of-Thought Evaluation
- Title(参考訳): LLMチェイン・オブ・サート評価における分類器感度の計測方法に依拠する忠実度の測定
- Authors: Richard J. Young,
- Abstract要約: 連鎖忠実性に関する最近の研究は、単一集合数について報告している。
本論文は、忠実性はモデルの客観的かつ測定可能な性質ではないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on chain-of-thought (CoT) faithfulness reports single aggregate numbers (e.g., DeepSeek-R1 acknowledges hints 39% of the time), implying that faithfulness is an objective, measurable property of a model. This paper provides evidence that it is not. Three classifiers (a regex-only detector, a regex-plus-LLM pipeline, and a Claude Sonnet 4 judge) are applied to 10,276 influenced reasoning traces from 12 open-weight models spanning 9 families and 7B to 1T parameters. On identical data, these classifiers produce faithfulness rates of 74.4%, 82.6%, and 69.7%. Per-model gaps range from 2.6 to 30.6 percentage points; all pairwise McNemar tests are significant (p < 0.001). The disagreements are systematic: Cohen's kappa ranges from 0.06 ("slight") for sycophancy hints to 0.42 ("moderate") for grader hints, and the asymmetry is pronounced: for sycophancy, 883 cases are classified as faithful by the pipeline but unfaithful by the Sonnet judge, while only 2 go the other direction. Classifier choice can also reverse model rankings: Qwen3.5-27B ranks 1st under the pipeline but 7th under Sonnet; OLMo-3.1-32B moves from 9th to 3rd. Different classifiers operationalize faithfulness at different levels of stringency (lexical mention versus epistemic dependence), yielding divergent measurements on the same behavior. These results indicate that published faithfulness numbers cannot be meaningfully compared across studies using different classifiers, and that future evaluations should report sensitivity ranges across multiple classification methodologies.
- Abstract(参考訳): チェーン・オブ・思想(CoT)の忠実性に関する最近の研究は、単一集合数(例えば、DeepSeek-R1は、その時間の39%を示唆している)を報告しており、忠実性はモデルの客観的で測定可能な性質であることを示唆している。
この論文はそうではないという証拠を提供する。
3つの分類器 (regex-only detector, regex-plus-LLM pipeline, and a Claude Sonnet 4 judge) を10,276に応用し、9つのファミリーと7Bから1Tパラメータにまたがる12のオープンウェイトモデルから導かれた推論トレースを解析した。
同一のデータでは、これらの分類器の忠実度は74.4%、82.6%、69.7%である。
モデルごとのギャップは2.6から30.6ポイントであり、全てのペアのマクネマール試験は有意である(p < 0.001)。
コーエンのカッパは、シコファンシーのヒントの0.06 ("slight") から、グレーダーのヒントの0.42 ("moderate") までの範囲があり、非対称性は発音される。
Qwen3.5-27Bはパイプラインで1位、Sonnetでは7位、OLMo-3.1-32Bは9位から3位である。
異なる分類器は、異なるレベルの寛大さ(語彙的言及と疫学的依存)で忠実さを運用し、同じ振る舞いに関する異なる測定結果をもたらす。
これらの結果は, 異なる分類器を用いた研究において, 公表された忠実度は有意に比較できないこと, 今後の評価は, 複数の分類手法にまたがる感度範囲を報告するべきであることを示唆している。
関連論文リスト
- TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z) - An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment [0.0]
フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
論文 参考訳(メタデータ) (2025-08-17T17:41:50Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - Chain-of-Thought Unfaithfulness as Disguised Accuracy [0.0]
CoT(Chain-of-Thought)世代は、大きな言語モデルの内部計算(LLM)と一致している。
モデルが回答を生成するためのCoTへの依存度を測定する指標を提案する。
論文 参考訳(メタデータ) (2024-02-22T17:23:53Z) - Norm-Scaling for Out-of-Distribution Detection [6.309365332210523]
アウト・オブ・ディストリビューション(OoD)入力は、データセットの真の基盤分布に属さない例である。
本稿では,各クラスごとに個別にロジットを正規化するノルムスケーリングを提案する。
AUROCは9.78%,AUPRは5.99%,FPR95は33.19%改善した。
論文 参考訳(メタデータ) (2022-05-06T22:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。