論文の概要: Better Accuracies, Worse Reasoning: A Step-Level Audit of Medical Chain-of-Thought Distillation
- arxiv url: http://arxiv.org/abs/2605.28301v1
- Date: Wed, 27 May 2026 10:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.987932
- Title: Better Accuracies, Worse Reasoning: A Step-Level Audit of Medical Chain-of-Thought Distillation
- Title(参考訳): より良いアキュラシー, より悪い推論: 医学的連鎖型蒸留のステップレベル監査
- Authors: Zhaoyang Jiang, Xuanqi Peng, Fei Teng, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Honghan Wu,
- Abstract要約: チェーン・オブ・シンクレット(CoT)蒸留は、教師の推論の痕跡を模倣するために、より小さなモデルを訓練する。
回答の品質向上とトレースの改善が伴うかどうかを問う。
- 参考スコア(独自算出の注目度): 14.101636730819175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) distillation trains a smaller model to imitate a teacher's reasoning trace, but it is typically evaluated by final-answer metrics including accuracy. We ask whether gains in answer quality are accompanied by improvements in the trace. In medical QA, where short answer options can leave a richer clinical justification under-specified, a Qwen3-8B student distilled from a DeepSeek-V3-family teacher improves on MedQA-USMLE answer metrics (SC@64 74.7% to 84.4%; expected calibration error (ECE) 0.096 to 0.034). Yet under a Kimi-K2.6 style-blind LLM-judge audit, its error rate over non-abstained steps rises from 30.6% to 50.3%. In this primary medical setting, answer quality and trace factuality move in opposite directions. This before--after pattern persists across evaluators, teacher strengths, student scales and families, medical benchmarks, and style, segmentation, and answer-correctness controls. A 150-step blinded audit by a clinical expert reproduces the same ordering. Boundary checks narrow the scope of the claim: the risk appears when a compact answer under-constrains the rationale and a capable student can imitate expert-like form without reliably grounding each local claim. Standard answer metrics and aggregate hedging rates do not reveal the shift. When such traces are released or reused, answer-level metrics alone are insufficient.
- Abstract(参考訳): チェーン・オブ・ソート(CoT)蒸留は、教師の推論の痕跡を模倣するために小さなモデルを訓練するが、通常は正確性を含む最終回答の指標によって評価される。
回答の品質向上とトレースの改善が伴うかどうかを問う。
医療用QAでは、Qwen3-8Bの学生がDeepSeek-V3ファミリーの教師から抽出したQwen3-8Bは、MedQA-USMLEの回答指標(SC@64 74.7%から84.4%、期待校正誤差(ECE)0.096から0.034)を改善している。
しかし、キミ-K2.6スタイルのLPM-judge監査では、非持続ステップのエラー率は30.6%から50.3%に上昇した。
この主要な医療環境では、回答の品質とトレースの事実性は反対方向に移動する。
この前処理パターンは、評価者、教師の強さ、学生のスケールと家族、医療ベンチマーク、スタイル、セグメンテーション、回答の正当性制御などにわたって持続する。
臨床専門家による150段階の盲目検査は、同じ順序を再現する。
境界チェックはクレームの範囲を狭める: リスクは、コンパクトな答えが根拠を制約しておらず、有能な学生が各ローカルなクレームを確実に根拠づけることなく専門家のようなフォームを模倣できるときに現れる。
標準回答のメトリクスと総ヘッジレートは、シフトを明らかにしない。
このようなトレースがリリースされるか再利用される場合、回答レベルのメトリクスだけでは不十分です。
関連論文リスト
- MAIGO: Mitigating Lost-in-Conversation with History-Cleaned On-Policy Self-Distillation [51.32912774464992]
大規模な言語モデルは、しばしば完全に指定されたプロンプトからタスクを解くが、同じ要求が複数のターンに広がると分解する。
本研究は, モデル自体の方針から, 履歴をクリアした基準を用いて汚染を低減させる, オンライン自己蒸留法であるMAIGOを提案する。
ミドルターンの場合、MAIGOは、ユーザ可視のシャードプレフィックスを保持しながら、事前のアシスタント応答を削除します。
論文 参考訳(メタデータ) (2026-05-26T15:38:46Z) - DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training [18.22030439716779]
安全のために調整された大きな言語モデル(LLM)は、しばしば人口統計の違いを認めない。
このアイデンティティ・ブラインドネスは、誤った応答、不必要な拒絶、あるいは一般的な"equal-treatment"デフォルトをもたらす。
DART(Distill-Audit-Repair Training)を導入する。
論文 参考訳(メタデータ) (2026-04-18T05:28:53Z) - Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - GATES: Self-Distillation under Privileged Context with Consensus Gating [89.62339954332248]
我々は、監督が信頼できない環境で自己蒸留を研究する。
非対称な文脈で回答する文書に焦点をあてる。
複数の文書ベース推論トレースをサンプリングすることにより、教師のコンセンサスからオンラインでの監督を導出する。
論文 参考訳(メタデータ) (2026-02-24T05:56:20Z) - Measuring Stability Beyond Accuracy in Small Open-Source Medical Large Language Models for Pediatric Endocrinology [34.80893325510028]
小さなオープンソース医療用大規模言語モデル(LLM)は、低リソースのデプロイメントとより広範なアクセシビリティのための有望な機会を提供する。
人体評価と臨床検査を併用して,6つの小さなオープンソース医療用LLMを評価した。
論文 参考訳(メタデータ) (2025-12-26T14:30:53Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。