Fugu-MT 論文翻訳(概要): Disentangling Reasoning and Knowledge in Medical Large Language Models

論文の概要: Disentangling Reasoning and Knowledge in Medical Large Language Models

arxiv url: http://arxiv.org/abs/2505.11462v2
Date: Tue, 24 Jun 2025 03:27:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 15:36:08.70333
Title: Disentangling Reasoning and Knowledge in Medical Large Language Models
Title（参考訳）: 医学大言語モデルにおける推論と知識の両立
Authors: Rahul Thapa, Qingyang Wu, Kevin Wu, Harrison Zhang, Angela Zhang, Eric Wu, Haotian Ye, Suhana Bedi, Nevin Aresh, Joseph Boen, Shriya Reddy, Ben Athiwaratkun, Shuaiwen Leon Song, James Zou,
Abstract要約: 大きな言語モデルにおける医学的推論は、臨床医の診断的思考をエミュレートすることを目的としている。 MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実のリコールが混在していることが多い。バイオメディカルモデル(HuatuoGPT-o1, MedReason, m1)と一般ドメインモデル(DeepSeek-R1, o4-mini, Qwen3)を評価する。我々は、推論重大例に基づいて微調整と強化学習を用いてBioMed-R1を訓練する。
参考スコア（独自算出の注目度）: 23.401484250342158
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medical reasoning in large language models (LLMs) aims to emulate clinicians' diagnostic thinking, but current benchmarks such as MedQA-USMLE, MedMCQA, and PubMedQA often mix reasoning with factual recall. We address this by separating 11 biomedical QA benchmarks into reasoning- and knowledge-focused subsets using a PubMedBERT classifier that reaches 81 percent accuracy, comparable to human performance. Our analysis shows that only 32.8 percent of questions require complex reasoning. We evaluate biomedical models (HuatuoGPT-o1, MedReason, m1) and general-domain models (DeepSeek-R1, o4-mini, Qwen3), finding consistent gaps between knowledge and reasoning performance. For example, HuatuoGPT-o1 scores 56.9 on knowledge but only 44.8 on reasoning. In adversarial tests where models are misled with incorrect initial reasoning, biomedical models degrade sharply, while larger or RL-trained general models show more robustness. To address this, we train BioMed-R1 using fine-tuning and reinforcement learning on reasoning-heavy examples. It achieves the strongest performance among similarly sized models. Further gains may come from incorporating clinical case reports and training with adversarial and backtracking scenarios.
Abstract（参考訳）: 大きな言語モデル(LLMs)における医学推論は、臨床医の診断思考をエミュレートすることを目的としているが、MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実的リコールが混在していることが多い。そこで我々は,11のバイオメディカルQAベンチマークをPubMedBERT分類器を用いて推論と知識に着目したサブセットに分割し,その精度を81%とした。我々の分析によると、質問の32.8%しか複雑な推論を必要としていない。バイオメディカルモデル(HuatuoGPT-o1,MedReason,m1)と一般ドメインモデル(DeepSeek-R1,o4-mini,Qwen3)を評価し,知識と推論性能の間に一貫したギャップを見いだした。例えば、HuatuoGPT-o1は知識で56.9点、推論で44.8点である。モデルが誤った初期推論と誤解される対向試験では、バイオメディカルモデルは急激に低下する一方、より大きなまたはRL訓練された一般モデルはより堅牢性を示す。そこで我々は,推論重大例に基づいて,微調整と強化学習を用いてBioMed-R1を訓練する。同様のサイズのモデルの中では最強のパフォーマンスを達成している。さらに、臨床症例報告を取り入れ、逆行性および後行性のあるシナリオでトレーニングを行うことで、さらなる利益を得ることができる。

関連論文リスト

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [44.96018028534255]
ReasonMedは最大の医学推論データセットであり、最初の170万の推論パスから370万の高品質なサンプルを抽出した。我々は、サブ10Bモデルのベンチマークを新たに設定したReasonMed-7Bを4.17%上回り、PubMedQAのLLaMA3.1-70Bを4.60%上回っている。
論文参考訳（メタデータ） (2025-06-11T08:36:55Z)
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文参考訳（メタデータ） (2025-05-16T22:34:36Z)
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models [21.849783391186754]
本研究は,医学的推論のためのテストタイムスケーリングとm1の総合的な研究である。各種医療タスクに対する評価は,テストタイムのスケーリングが医学的推論を継続的に促進することを示す。データスケールの増加,データ品質の向上,モデル能力の拡大により,医療知識の基盤化が一貫して進んでいることが判明した。
論文参考訳（メタデータ） (2025-04-01T14:57:43Z)
Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文参考訳（メタデータ） (2025-03-18T06:12:38Z)
Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress? [44.265524592991945]
医療モデルでは, ゼロ/フェールシューティング方式では, 基礎モデルよりも常に改善が得られないことが示される。以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文参考訳（メタデータ） (2024-11-06T18:51:02Z)
Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文参考訳（メタデータ） (2024-09-29T07:04:26Z)
Pattern Recognition or Medical Knowledge? The Problem with Multiple-Choice Questions in Medicine [3.471944921180245]
大規模言語モデル(LLM)は、医療領域において大きな可能性を示す。これらの質問は、USMLEのような試験をモデルとしたMCQ(Multiple-choice Question)を用いて評価されることが多い。私たちは、想像上のオルガンであるGlianorexを中心とした架空の医療ベンチマークを作成し、記憶された知識と推論能力の分離を可能にしました。
論文参考訳（メタデータ） (2024-06-04T15:08:56Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文参考訳（メタデータ） (2023-05-26T17:14:43Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)
Probing Pre-Trained Language Models for Disease Knowledge [38.73378973397647]
疾患知識評価のための新しいベンチマークであるDisKnEを紹介する。トレーニングデータから、テスト疾患に関する知識を学べないよう、トレーニングとテストの分割を定義します。提案したベンチマークを用いて,臨床・生体領域の事前学習モデルの解析を行うと,その性能は著しく低下することがわかった。
論文参考訳（メタデータ） (2021-06-14T10:31:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。