論文の概要: When AI Shows Its Work, Is It Actually Working? Step-Level Evaluation Reveals Frontier Language Models Frequently Bypass Their Own Reasoning
- arxiv url: http://arxiv.org/abs/2603.22816v1
- Date: Tue, 24 Mar 2026 05:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.320639
- Title: When AI Shows Its Work, Is It Actually Working? Step-Level Evaluation Reveals Frontier Language Models Frequently Bypass Their Own Reasoning
- Title(参考訳): AIが実際に動くのか? ステップレベル評価は、フロンティア言語モデルを頻繁に独自の推論をバイパスする
- Authors: Abhinaba Basu, Pavan Chakraborty,
- Abstract要約: 言語モデルは、答える前にステップバイステップの推論を書くことで、ますます"彼らの仕事を示す"。
しかし、これらの推論ステップは真に使われているのか、あるいはモデルがすでに決定した後に生成された装飾的な物語なのか?
ステップレベルの評価を導入する: 一度に1つの推論文を取り除き、答えが変わるかどうかを確認する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models increasingly "show their work" by writing step-by-step reasoning before answering. But are these reasoning steps genuinely used, or decorative narratives generated after the model has already decided? Consider: a medical AI writes "The patient's eosinophilia and livedo reticularis following catheterization suggest cholesterol embolization syndrome. Answer: B." If we remove the eosinophilia observation, does the diagnosis change? For most frontier models, the answer is no - the step was decorative. We introduce step-level evaluation: remove one reasoning sentence at a time and check whether the answer changes. This simple test requires only API access -- no model weights -- and costs approximately $1-2 per model per task. Testing 10 frontier models (GPT-5.4, Claude Opus, DeepSeek-V3.2, MiniMax-M2.5, Kimi-K2.5, and others) across sentiment, mathematics, topic classification, and medical QA (N=376-500 each), the majority produce decorative reasoning: removing any step changes the answer less than 17% of the time, while any single step alone recovers the answer. This holds even on math, where smaller models (0.8-8B) show genuine step dependence (55% necessity). Two models break the pattern: MiniMax-M2.5 on sentiment (37% necessity) and Kimi-K2.5 on topic classification (39%) - but both shortcut other tasks. Faithfulness is model-specific and task-specific. We also discover "output rigidity": on the same medical questions, Claude Opus writes 11 diagnostic steps while GPT-OSS-120B outputs a single token. Mechanistic analysis (attention patterns) confirms that CoT attention drops more in late layers for decorative tasks (33%) than faithful ones (20%). Implications: step-by-step explanations from frontier models are largely decorative, per-model per-domain evaluation is essential, and training objectives - not scale - determine whether reasoning is genuine.
- Abstract(参考訳): 言語モデルは、答える前にステップバイステップの推論を書くことで、ますます"彼らの仕事を示す"。
しかし、これらの推論ステップは真に使われているのか、あるいはモデルがすでに決定した後に生成された装飾的な物語なのか?
医療AIは「カテーテル化後の患者の好酸球とリボリテリシスはコレステロール塞栓症候群を示唆している」と記している。
好酸球の観察を取り除いたら、診断は変わりますか?
ほとんどのフロンティアモデルでは、答えはノーです。
ステップレベルの評価を導入する: 一度に1つの推論文を取り除き、答えが変わるかどうかを確認する。
この単純なテストでは、APIアクセス(モデルウェイトなし)しか必要とせず、タスク毎に約1~2ドルかかる。
10のフロンティアモデル(GPT-5.4、Claude Opus、DeepSeek-V3.2、MiniMax-M2.5、Kimi-K2.5など)を感情、数学、トピック分類、医学的QA(N=376-500)でテストし、大多数は装飾的な推論を生み出している。
これは数学にも当てはまり、小さなモデル(0.8-8B)は真のステップ依存(55%の必要性)を示す。
MiniMax-M2.5 on sentiment (37% need) と Kimi-K2.5 on topic classification (39%) の2つのモデルがあるが、どちらも他のタスクをショートカットしている。
忠実さはモデル固有であり、タスク固有である。
同じ質問に対して、Claude Opus氏は11の診断ステップを書き、GPT-OSS-120Bは1つのトークンを出力します。
機械的分析(アテンションパターン)は、CoTの注意が忠実なもの(20%)よりも、装飾的なタスクのために後期層で減少することを確認した。
意味:フロンティアモデルからのステップバイステップの説明は概ね装飾的であり、ドメイン単位のモデル評価は不可欠である。
関連論文リスト
- Mechanistic Evidence for Faithfulness Decay in Chain-of-Thought Reasoning [0.0]
Chain-of-Thoughtの説明は、言語モデルが複雑な問題を解決する方法を理解するために広く使われている。
モデルの意思決定プロセスに個別の推論ステップが忠実かどうかを測定する指標である正規化論理差判定(NLDD)を提案する。
論文 参考訳(メタデータ) (2026-02-04T21:55:57Z) - Silhouette-based Gait Foundation Model [56.27974816297294]
統一された歩行基盤モデルを構築するには、スケーラビリティと一般化の2つの長年の障壁に対処する必要がある。
私たちは、歩行理解のための最初のスケーラブルでセルフ教師付き事前学習フレームワークであるFoundationGaitを紹介します。
論文 参考訳(メタデータ) (2025-11-30T01:53:41Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - MedS$^3$: Towards Medical Slow Thinking with Self-Evolved Soft Dual-sided Process Supervision [42.03114317779815]
Moneは、小規模でデプロイ可能なモデルに堅牢な推論機能を提供する、自己進化型のフレームワークである。
moneは過去の最先端の医療モデルを+6.45の精度で上回り、32Bスケールの汎用推論モデルを+8.57の精度で上回っている。
論文 参考訳(メタデータ) (2025-01-21T11:24:55Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - Enhancing Robustness in Biomedical NLI Models: A Probing Approach for
Clinical Trials [0.0]
大規模言語モデルは、会話AI、コンテンツ生成、情報検索、ビジネスインテリジェンス、医療など、さまざまな分野や産業に革命をもたらした。
ここでは,Sci-5モデルの検討にmnestic probing(mnestic probing)を用いた。
論文 参考訳(メタデータ) (2024-02-04T16:18:01Z) - How Does Pruning Impact Long-Tailed Multi-Label Medical Image
Classifiers? [49.35105290167996]
プルーニングは、ディープニューラルネットワークを圧縮し、全体的なパフォーマンスに大きな影響を及ぼすことなく、メモリ使用量と推論時間を短縮する強力なテクニックとして登場した。
この研究は、プルーニングがモデル行動に与える影響を理解するための第一歩である。
論文 参考訳(メタデータ) (2023-08-17T20:40:30Z) - Context-aware attention layers coupled with optimal transport domain
adaptation and multimodal fusion methods for recognizing dementia from
spontaneous speech [0.0]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の主要な原因である複雑な神経認知疾患である。
そこで本研究では,AD患者検出のための新しい手法を提案する。
ADReSSとADReSSo Challengeで実施した実験は、既存の研究イニシアチブに対して導入したアプローチの有効性を示している。
論文 参考訳(メタデータ) (2023-05-25T18:18:09Z) - How do Decisions Emerge across Layers in Neural Models? Interpretation
with Differentiable Masking [70.92463223410225]
DiffMaskは、差分性を維持しながら入力のサブセットをマスクアウトすることを学ぶ。
入力トークンを包含または無視する決定は、中間隠蔽層に基づく単純なモデルで行われる。
これにより、属性のヒートマップをプロットするだけでなく、ネットワーク層間で意思決定がどのように形成されるかを分析することができます。
論文 参考訳(メタデータ) (2020-04-30T17:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。