論文の概要: Disentangling Reasoning and Knowledge in Medical Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11462v2
- Date: Tue, 24 Jun 2025 03:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 15:36:08.70333
- Title: Disentangling Reasoning and Knowledge in Medical Large Language Models
- Title(参考訳): 医学大言語モデルにおける推論と知識の両立
- Authors: Rahul Thapa, Qingyang Wu, Kevin Wu, Harrison Zhang, Angela Zhang, Eric Wu, Haotian Ye, Suhana Bedi, Nevin Aresh, Joseph Boen, Shriya Reddy, Ben Athiwaratkun, Shuaiwen Leon Song, James Zou,
- Abstract要約: 大きな言語モデルにおける医学的推論は、臨床医の診断的思考をエミュレートすることを目的としている。
MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実のリコールが混在していることが多い。
バイオメディカルモデル(HuatuoGPT-o1, MedReason, m1)と一般ドメインモデル(DeepSeek-R1, o4-mini, Qwen3)を評価する。
我々は、推論重大例に基づいて微調整と強化学習を用いてBioMed-R1を訓練する。
- 参考スコア(独自算出の注目度): 23.401484250342158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical reasoning in large language models (LLMs) aims to emulate clinicians' diagnostic thinking, but current benchmarks such as MedQA-USMLE, MedMCQA, and PubMedQA often mix reasoning with factual recall. We address this by separating 11 biomedical QA benchmarks into reasoning- and knowledge-focused subsets using a PubMedBERT classifier that reaches 81 percent accuracy, comparable to human performance. Our analysis shows that only 32.8 percent of questions require complex reasoning. We evaluate biomedical models (HuatuoGPT-o1, MedReason, m1) and general-domain models (DeepSeek-R1, o4-mini, Qwen3), finding consistent gaps between knowledge and reasoning performance. For example, HuatuoGPT-o1 scores 56.9 on knowledge but only 44.8 on reasoning. In adversarial tests where models are misled with incorrect initial reasoning, biomedical models degrade sharply, while larger or RL-trained general models show more robustness. To address this, we train BioMed-R1 using fine-tuning and reinforcement learning on reasoning-heavy examples. It achieves the strongest performance among similarly sized models. Further gains may come from incorporating clinical case reports and training with adversarial and backtracking scenarios.
- Abstract(参考訳): 大きな言語モデル(LLMs)における医学推論は、臨床医の診断思考をエミュレートすることを目的としているが、MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実的リコールが混在していることが多い。
そこで我々は,11のバイオメディカルQAベンチマークをPubMedBERT分類器を用いて推論と知識に着目したサブセットに分割し,その精度を81%とした。
我々の分析によると、質問の32.8%しか複雑な推論を必要としていない。
バイオメディカルモデル(HuatuoGPT-o1,MedReason,m1)と一般ドメインモデル(DeepSeek-R1,o4-mini,Qwen3)を評価し,知識と推論性能の間に一貫したギャップを見いだした。
例えば、HuatuoGPT-o1は知識で56.9点、推論で44.8点である。
モデルが誤った初期推論と誤解される対向試験では、バイオメディカルモデルは急激に低下する一方、より大きなまたはRL訓練された一般モデルはより堅牢性を示す。
そこで我々は,推論重大例に基づいて,微調整と強化学習を用いてBioMed-R1を訓練する。
同様のサイズのモデルの中では最強のパフォーマンスを達成している。
さらに、臨床症例報告を取り入れ、逆行性および後行性のあるシナリオでトレーニングを行うことで、さらなる利益を得ることができる。
関連論文リスト
- m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models [21.849783391186754]
本研究は,医学的推論のためのテストタイムスケーリングとm1の総合的な研究である。
各種医療タスクに対する評価は,テストタイムのスケーリングが医学的推論を継続的に促進することを示す。
データスケールの増加,データ品質の向上,モデル能力の拡大により,医療知識の基盤化が一貫して進んでいることが判明した。
論文 参考訳(メタデータ) (2025-04-01T14:57:43Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress? [44.265524592991945]
医療モデルでは, ゼロ/フェールシューティング方式では, 基礎モデルよりも常に改善が得られないことが示される。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-06T18:51:02Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Probing Pre-Trained Language Models for Disease Knowledge [38.73378973397647]
疾患知識評価のための新しいベンチマークであるDisKnEを紹介する。
トレーニングデータから、テスト疾患に関する知識を学べないよう、トレーニングとテストの分割を定義します。
提案したベンチマークを用いて,臨床・生体領域の事前学習モデルの解析を行うと,その性能は著しく低下することがわかった。
論文 参考訳(メタデータ) (2021-06-14T10:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。