論文の概要: Reasoning Models Will Blatantly Lie About Their Reasoning
- arxiv url: http://arxiv.org/abs/2601.07663v1
- Date: Mon, 12 Jan 2026 15:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.529199
- Title: Reasoning Models Will Blatantly Lie About Their Reasoning
- Title(参考訳): Reasoning Modelsは、Reasoningについてあからさまに嘘をつく
- Authors: William Walden,
- Abstract要約: 提案手法では,複数の選択質問に答える際に,提案するヒントに頼って,LRM(Large Reasoning Models)が明確に拒否されることが示されている。
以上の結果から,CoTモニタリングと解釈可能性の低下が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: It has been shown that Large Reasoning Models (LRMs) may not *say what they think*: they do not always volunteer information about how certain parts of the input influence their reasoning. But it is one thing for a model to *omit* such information and another, worse thing to *lie* about it. Here, we extend the work of Chen et al. (2025) to show that LRMs will do just this: they will flatly deny relying on hints provided in the prompt in answering multiple choice questions -- even when directly asked to reflect on unusual (i.e. hinted) prompt content, even when allowed to use hints, and even though experiments *show* them to be using the hints. Our results thus have discouraging implications for CoT monitoring and interpretability.
- Abstract(参考訳): 大規模な推論モデル(LRMs)は、彼らが何を考えているのかを判断するものではないことが示されている。
しかし、モデルがそのような情報を*省略する、そしてそれに対して*満足する、さらに悪いことに、それは、モデルにとって1つのことなのです。
ここでは、Chen et al (2025) の著作を拡張して、LEMsがこのようなことをすることを示す: 彼らは、複数の選択された質問に答えるプロンプトで提供されるヒントに依存することを、明確に拒否する。
以上の結果から,CoTモニタリングと解釈可能性の低下が示唆された。
関連論文リスト
- Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning [0.0]
AIシステムが推論をステップバイステップで説明するとき、実践者はこれらの説明がAIの回答に実際に影響を与えたものを明らかにしていると仮定する。
私たちはこの仮定を、ヒントを質問に埋め込んで、モデルが言及したかどうかを測定することでテストしました。
モデルはほとんど自然にヒントに言及しないが、直接尋ねると、彼らはそれらに気付くことを認めている。
モデルにヒントを報告するよう強制するが、それが存在しない場合でもヒントを報告させ、精度を低下させる。
また、ユーザーの好みに訴えるヒントは特に危険であることがわかりました。
論文 参考訳(メタデータ) (2025-12-25T05:29:53Z) - Do Retrieval Augmented Language Models Know When They Don't Know? [55.72375712577378]
ALMはいつ知らないのか知っていますか?
期待とは対照的に, LLM は有意なテキストバッファー-拒否行動を示す。
提案手法は, 学習後モデルに対する簡易かつ効果的な拒絶手法を開発し, 解答品質を向上する。
論文 参考訳(メタデータ) (2025-09-01T13:44:15Z) - Chain-of-Thought Reasoning In The Wild Is Not Always Faithful [3.048751803239144]
CoT(Chain-of-Thought)推論は最先端のAI能力を大幅に進歩させたものだ。
人工バイアスのない現実的なプロンプトでも不信なCoTが発生することを示す。
論文 参考訳(メタデータ) (2025-03-11T17:56:30Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。