論文の概要: Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?
- arxiv url: http://arxiv.org/abs/2603.22582v1
- Date: Mon, 23 Mar 2026 21:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.193874
- Title: Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?
- Title(参考訳): Lie to Me: Reasoning ModelsにおけるChain-of-Thought Reasoningはどの程度忠実か?
- Authors: Richard J. Young,
- Abstract要約: CoT(Chain-of- Thought)推論は、安全クリティカルなデプロイメントにおける大規模言語モデルの透明性メカニズムとして提案されている。
本研究では,9つの建築家族を対象としたオープンウェイト推論モデルを498の質問に対して検討した。
41,832回の推論では、全体の忠実度は39.7% (Seed-1.6-Flash) から89.9% (DeepSeek-V3.2- Speciale) まで変化している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning has been proposed as a transparency mechanism for large language models in safety-critical deployments, yet its effectiveness depends on faithfulness (whether models accurately verbalize the factors that actually influence their outputs), a property that prior evaluations have examined in only two proprietary models, finding acknowledgment rates as low as 25% for Claude 3.7 Sonnet and 39% for DeepSeek-R1. To extend this evaluation across the open-weight ecosystem, this study tests 12 open-weight reasoning models spanning 9 architectural families (7B-685B parameters) on 498 multiple-choice questions from MMLU and GPQA Diamond, injecting six categories of reasoning hints (sycophancy, consistency, visual pattern, metadata, grader hacking, and unethical information) and measuring the rate at which models acknowledge hint influence in their CoT when hints successfully alter answers. Across 41,832 inference runs, overall faithfulness rates range from 39.7% (Seed-1.6-Flash) to 89.9% (DeepSeek-V3.2-Speciale) across model families, with consistency hints (35.5%) and sycophancy hints (53.9%) exhibiting the lowest acknowledgment rates. Training methodology and model family predict faithfulness more strongly than parameter count, and keyword-based analysis reveals a striking gap between thinking-token acknowledgment (approximately 87.5%) and answer-text acknowledgment (approximately 28.6%), suggesting that models internally recognize hint influence but systematically suppress this acknowledgment in their outputs. These findings carry direct implications for the viability of CoT monitoring as a safety mechanism and suggest that faithfulness is not a fixed property of reasoning models but varies systematically with architecture, training method, and the nature of the influencing cue.
- Abstract(参考訳): CoT推論(Chain-of-Thought reasoning)は、安全クリティカルなデプロイメントにおける大規模言語モデルの透明性メカニズムとして提案されているが、その有効性は、忠実さ(モデルが実際に出力に影響を与える要因を正確に言語化するかどうか)、事前評価が2つのプロプライエタリなモデルでのみ検証された特性、クロード3.7ソンネットでは25%、ディープシークR1では39%である。
この評価をオープンウェイトエコシステム全体にわたって拡張するため,MMLUとGPQAダイアモンドからの498の多重選択質問に対して,9つのアーキテクチャファミリー(7B-685Bパラメータ)にまたがる12のオープンウェイト推論モデルを検証し,6つのカテゴリの推論ヒント(語彙,一貫性,視覚的パターン,メタデータ,グレードラーハッキング,非倫理的情報)を注入し,ヒントが回答を変更すると,モデルがCoTにヒントの影響を認める速度を測定した。
41,832回の推論では、全体の忠実度は39.7% (Seed-1.6-Flash) から89.9% (DeepSeek-V3.2-Speciale) まで変化し、一貫性のヒント (35.5%) とサイコファシーのヒント (53.9%) が最も低い。
学習方法論とモデルファミリーは、パラメータ数よりも忠実さを強く予測し、キーワードベースの分析は、思考と知識の認識(約87.5%)と回答文の認識(約28.6%)の間に顕著なギャップを生じさせ、モデルが内部的にヒントの影響を認識し、出力のこの認識を体系的に抑制することを示唆している。
これらの結果は,安全機構としてのCoTモニタリングの有効性に直接影響しており,信頼性は推論モデルの固定特性ではなく,アーキテクチャ,トレーニング方法,および影響するキューの性質と体系的に異なることを示唆している。
関連論文リスト
- Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - Beyond Mimicry: Preference Coherence in LLMs [0.19116784879310025]
大規模言語モデルが真の嗜好構造を示すかどうかを,AI固有のトレードオフに対する応答をテストすることによって検討する。
23の組合せ(47.9%)は、シナリオ強度と選択パターンの統計的に有意な関係を示した。
5つの組み合わせ(10.4%)だけが適応的またはしきい値に基づく行動を通じて有意義な嗜好コヒーレンスを示す。
不安定な遷移(45.8%)と刺激特異的感性は、現在のAIシステムが統一された嗜好構造を欠いていることを示唆している。
論文 参考訳(メタデータ) (2025-11-17T17:41:48Z) - Beyond the Leaderboard: Understanding Performance Disparities in Large Language Models via Model Diffing [13.861365773419314]
モデル差分法を用いて, Gemma-2-9b-it と SimPO-enhanced の差分を解析する。
クロスコーダを用いて、2つのモデルを区別する潜在表現を特定し分類する。
論文 参考訳(メタデータ) (2025-09-23T08:35:58Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。