論文の概要: Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2601.00830v1
- Date: Thu, 25 Dec 2025 05:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.533156
- Title: Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning
- Title(参考訳): AIの解説を信頼できるか? チェーン・オブ・ソート推論における体系的アンダーレポーティングの証拠
- Authors: Deep Pankajbhai Mehta,
- Abstract要約: AIシステムが推論をステップバイステップで説明するとき、実践者はこれらの説明がAIの回答に実際に影響を与えたものを明らかにしていると仮定する。
私たちはこの仮定を、ヒントを質問に埋め込んで、モデルが言及したかどうかを測定することでテストしました。
モデルはほとんど自然にヒントに言及しないが、直接尋ねると、彼らはそれらに気付くことを認めている。
モデルにヒントを報告するよう強制するが、それが存在しない場合でもヒントを報告させ、精度を低下させる。
また、ユーザーの好みに訴えるヒントは特に危険であることがわかりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When AI systems explain their reasoning step-by-step, practitioners often assume these explanations reveal what actually influenced the AI's answer. We tested this assumption by embedding hints into questions and measuring whether models mentioned them. In a study of over 9,000 test cases across 11 leading AI models, we found a troubling pattern: models almost never mention hints spontaneously, yet when asked directly, they admit noticing them. This suggests models see influential information but choose not to report it. Telling models they are being watched does not help. Forcing models to report hints works, but causes them to report hints even when none exist and reduces their accuracy. We also found that hints appealing to user preferences are especially dangerous-models follow them most often while reporting them least. These findings suggest that simply watching AI reasoning is not enough to catch hidden influences.
- Abstract(参考訳): AIシステムが推論をステップバイステップで説明するとき、実践者はこれらの説明がAIの回答に実際に影響を与えたものを明らかにしていると仮定する。
私たちはこの仮定を、ヒントを質問に埋め込んで、モデルが言及したかどうかを測定することでテストしました。
モデルはほとんど自然にヒントに言及しないが、直接尋ねると、彼らはそれらに気付くことを認めている。
これは、モデルが影響力のある情報を見るが、それを報告しないことを選択することを示唆している。
彼らが見ているモデルを伝えることは役に立たない。
モデルにヒントを報告するよう強制するが、それが存在しない場合でもヒントを報告させ、精度を低下させる。
また、ユーザー嗜好に訴えるヒントは特に危険なモデルであり、最も多くフォローするが、報告は最小限であることもわかりました。
これらの結果は、AI推論を見るだけでは、隠れた影響をキャッチできないことを示唆している。
関連論文リスト
- Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Prompting Science Report 3: I'll pay you or I'll kill you -- but will you care? [0.0]
これは、ビジネス、教育、政策リーダーが厳格なテストを通じてAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの第3弾である。
論文 参考訳(メタデータ) (2025-08-01T13:23:21Z) - Chain-of-Thought Reasoning In The Wild Is Not Always Faithful [3.048751803239144]
CoT(Chain-of-Thought)推論は最先端のAI能力を大幅に進歩させたものだ。
人工バイアスのない現実的なプロンプトでも不信なCoTが発生することを示す。
論文 参考訳(メタデータ) (2025-03-11T17:56:30Z) - An Assessment of Model-On-Model Deception [0.0]
Llama-2 7B, 13B, 70B, および GPT-3.5 を用いて, MMLU の質問に対する誤った回答を正当化することにより, 1万以上の誤解を招く説明のデータセットを作成する。
さらに悪いことに、すべての能力のモデルは他人を誤解させるのに成功しており、より有能なモデルは詐欺に抵抗するのにわずかに優れている。
論文 参考訳(メタデータ) (2024-05-10T23:24:18Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。