論文の概要: MedThink: Enhancing Diagnostic Accuracy in Small Models via Teacher-Guided Reasoning Correction
- arxiv url: http://arxiv.org/abs/2605.08094v1
- Date: Thu, 09 Apr 2026 18:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.689321
- Title: MedThink: Enhancing Diagnostic Accuracy in Small Models via Teacher-Guided Reasoning Correction
- Title(参考訳): MedThink:教師誘導推論補正による小型モデルの診断精度向上
- Authors: Xinchun Su, Chunxu Luo, Lipeng Ma, Yixuan Li, Weidong Yang,
- Abstract要約: 小言語モデルにおけるロバストな臨床推論を育むための2段階蒸留フレームワークであるMedThinkを提案する。
第1段階では、教師のLLMがデータをスクリーニングし、ドメイン知識の説明を注入し、学生モデルを微調整する。
第2段階では、教師は、生徒の誤りを評価し、知識をリンクして答えを正す推論連鎖を生成し、生徒の診断的推論を洗練させる。
- 参考スコア(独自算出の注目度): 22.35140929464229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate clinical diagnosis requires extensive domain knowledge and complex clinical reasoning capabilities. Although large language models (LLMs) hold great potential for clinical reasoning, their high computational and memory requirements limit their deployment in resource-constrained environments. Knowledge distillation (KD) can compress LLM capabilities into smaller models, but traditional KD merely transfers superficial answer patterns and fails to preserve the structured reasoning required for reliable diagnosis. To address this, we propose a two-stage distillation framework, MedThink, designed to cultivate robust clinical reasoning in small language models (SLMs). In the first stage, a teacher LLM screens data and injects domain-knowledge explanations to fine-tune a student model, establishing a knowledge foundation. In the second stage, the teacher evaluates the student's errors, generates reasoning chains linking knowledge to correct answers, and refines the student's diagnostic reasoning through a second round of fine-tuning. We evaluate MedThink on general medical benchmarks and a gastroenterology dataset comprising 955 question-answer pairs. Experiments demonstrate that MedThink outperforms six distillation strategies in all benchmarks: achieving an improvement of up to 12.7% over the student baseline in general tasks, and reaching a total top accuracy of 56.4% in gastroenterology evaluation. This indicates that iterative distillation centered on reasoning can significantly enhance the diagnostic accuracy and generalization capabilities of SLMs whilst maintaining computational efficiency. Our code and data are publicly available at https://github.com/destinybird/PrecisionBoost.
- Abstract(参考訳): 正確な臨床診断には、広範なドメイン知識と複雑な臨床推論能力が必要である。
大規模言語モデル (LLM) は臨床推論において大きな可能性を秘めているが、その高い計算量とメモリ要求は資源制約のある環境への展開を制限する。
知識蒸留(KD)はLLM能力をより小さなモデルに圧縮することができるが、従来のKDは表面的な応答パターンを伝達するだけで、信頼できる診断に必要な構造的推論を維持できない。
そこで本研究では,小規模言語モデル (SLM) におけるロバストな臨床推論の育成を目的とした2段階蒸留フレームワーク MedThink を提案する。
第1段階では、教師LLMがデータをスクリーニングし、ドメイン知識の説明を注入し、学生モデルを微調整し、知識基盤を確立する。
第2段階では、教師は、生徒の誤りを評価し、知識を正しい回答にリンクする推論連鎖を生成し、第2ラウンドの微調整を通して、生徒の診断推論を洗練させる。
MedThinkを一般医用ベンチマークで評価し,955組の質問応答対からなる胃腸科学データセットについて検討した。
実験の結果、MedThinkは全ベンチマークで6つの蒸留戦略を上回り、学生の基準よりも最大12.7%向上し、胃腸科学評価では56.4%の精度に達した。
このことから,推理を中心とした反復蒸留は,計算効率を保ちながら,SLMの診断精度と一般化能力を著しく向上させることが示唆された。
私たちのコードとデータはhttps://github.com/destinybird/PrecisionBoost.comで公開されています。
関連論文リスト
- Learning Diagnostic Reasoning for Decision Support in Toxicology [34.623049546258294]
緊急毒性学への最初の強化学習(Reinforcement Learning, RL)であるDeToxRを提案する。
14種類の物質クラスにまたがる多ラベル予測のためのロバストなデータ融合エンジンを設計する。
臨床成績報酬を直接利用してモデルの推論を最適化する。
論文 参考訳(メタデータ) (2026-03-31T11:26:45Z) - Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards [28.419723761732357]
Med-PRMは、確立した医療知識ベースに対する各推論ステップを検証するためのプロセス報酬モデリングフレームワークである。
Med-PRMは最先端のパフォーマンスを実現し、ベースモデルの性能を最大13.50%向上させた。
我々は、Med-PRMの汎用性を、Meerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合することで示す。
論文 参考訳(メタデータ) (2025-06-13T05:36:30Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。