論文の概要: Reasoning Models Will Blatantly Lie About Their Reasoning
- arxiv url: http://arxiv.org/abs/2601.07663v2
- Date: Tue, 13 Jan 2026 14:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 14:06:39.282454
- Title: Reasoning Models Will Blatantly Lie About Their Reasoning
- Title(参考訳): Reasoning Modelsは、Reasoningについてあからさまに嘘をつく
- Authors: William Walden,
- Abstract要約: 提案手法では,複数の選択質問に答える際に,提案するヒントに頼って,LRM(Large Reasoning Models)が明確に拒否されることが示されている。
以上の結果から,CoTモニタリングと解釈可能性の低下が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: It has been shown that Large Reasoning Models (LRMs) may not *say what they think*: they do not always volunteer information about how certain parts of the input influence their reasoning. But it is one thing for a model to *omit* such information and another, worse thing to *lie* about it. Here, we extend the work of Chen et al. (2025) to show that LRMs will do just this: they will flatly deny relying on hints provided in the prompt in answering multiple choice questions -- even when directly asked to reflect on unusual (i.e. hinted) prompt content, even when allowed to use hints, and even though experiments *show* them to be using the hints. Our results thus have discouraging implications for CoT monitoring and interpretability.
- Abstract(参考訳): 大規模な推論モデル(LRMs)は、彼らが何を考えているのかを判断するものではないことが示されている。
しかし、モデルがそのような情報を*省略する、そしてそれに対して*満足する、さらに悪いことに、それは、モデルにとって1つのことなのです。
ここでは、Chen et al (2025) の著作を拡張して、LEMsがこのようなことをすることを示す: 彼らは、複数の選択された質問に答えるプロンプトで提供されるヒントに依存することを、明確に拒否する。
以上の結果から,CoTモニタリングと解釈可能性の低下が示唆された。
関連論文リスト
- Can We Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning [0.0]
AIシステムが推論をステップバイステップで説明するとき、実践者はこれらの説明がAIの回答に実際に影響を与えたものを明らかにしていると仮定する。
私たちはこの仮定を、ヒントを質問に埋め込んで、モデルが言及したかどうかを測定することでテストしました。
モデルはほとんど自然にヒントに言及しないが、直接尋ねると、彼らはそれらに気付くことを認めている。
モデルにヒントを報告するよう強制するが、それが存在しない場合でもヒントを報告させ、精度を低下させる。
また、ユーザーの好みに訴えるヒントは特に危険であることがわかりました。
論文 参考訳(メタデータ) (2025-12-25T05:29:53Z) - Do Retrieval Augmented Language Models Know When They Don't Know? [55.72375712577378]
ALMはいつ知らないのか知っていますか?
期待とは対照的に, LLM は有意なテキストバッファー-拒否行動を示す。
提案手法は, 学習後モデルに対する簡易かつ効果的な拒絶手法を開発し, 解答品質を向上する。
論文 参考訳(メタデータ) (2025-09-01T13:44:15Z) - When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction [24.49830646625232]
我々は、事前生成された回答における認識誤りの挙動を「取り消し」として定義する。
我々は、リトラクションがモデルの内部信念の指標と密接な関係があることを実証する。
実験により、内的信念はモデルリトラクションに因果的に影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2025-05-22T03:16:00Z) - Chain-of-Thought Reasoning In The Wild Is Not Always Faithful [3.048751803239144]
CoT(Chain-of-Thought)推論は最先端のAI能力を大幅に進歩させたものだ。
人工バイアスのない現実的なプロンプトでも不信なCoTが発生することを示す。
論文 参考訳(メタデータ) (2025-03-11T17:56:30Z) - How LLMs Fail to Support Fact-Checking [4.918358353535447]
LLM(Large Language Models)は、オンラインの誤報を増幅するが、誤報に対処することを約束する。
我々は、政治的誤報に対処する3つのLDM(ChatGPT、Gemini、Claude)の能力を実証的に研究する。
以上の結果から,モデルが実際のニュースソースで回答を得るのに苦労し,左利きの情報源を引用する傾向が示唆された。
論文 参考訳(メタデータ) (2025-02-28T07:12:03Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Are DeepSeek R1 And Other Reasoning Models More Faithful? [2.0429566123690455]
我々は,Qwen-2.5,Gemini-2,DeepSeek-V3-Baseの3つの推論モデルを評価する。
MMLU質問に対する解答に、その解答がどう影響するかをモデルで記述できるかどうかを検証する。
推論モデルは、テストされたすべての非推論モデルよりもはるかに確実にそれらに影響を与えるキューを記述する。
論文 参考訳(メタデータ) (2025-01-14T14:31:45Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。