論文の概要: MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2504.00993v1
- Date: Tue, 01 Apr 2025 17:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:06.554671
- Title: MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs
- Title(参考訳): MedReason: LLMにおけるFactual Medical Reasoning Stepsの知識グラフによる回避
- Authors: Juncheng Wu, Wenlong Deng, Xingxuan Li, Sheng Liu, Taomian Mi, Yifan Peng, Ziyang Xu, Yi Liu, Hyunjin Cho, Chang-In Choi, Yihan Cao, Hui Ren, Xiang Li, Xiaoxiao Li, Yuyin Zhou,
- Abstract要約: 高品質な医療推論データセットであるMedReasonを紹介する。
我々のパイプラインは7つの医学データセットから様々な医学的質問の詳細な推論を生成する。
私たちの最高のパフォーマンスモデルであるMedReason-8Bは、最先端の医療推論モデルであるHuatuo-o1-8Bを、臨床ベンチマークMedBulletsで最大4.2%上回っています。
- 参考スコア(独自算出の注目度): 39.65443626577068
- License:
- Abstract: Medical tasks such as diagnosis and treatment planning require precise and complex reasoning, particularly in life-critical domains. Unlike mathematical reasoning, medical reasoning demands meticulous, verifiable thought processes to ensure reliability and accuracy. However, there is a notable lack of datasets that provide transparent, step-by-step reasoning to validate and enhance the medical reasoning ability of AI models. To bridge this gap, we introduce MedReason, a large-scale high-quality medical reasoning dataset designed to enable faithful and explainable medical problem-solving in large language models (LLMs). We utilize a structured medical knowledge graph (KG) to convert clinical QA pairs into logical chains of reasoning, or ``thinking paths'', which trace connections from question elements to answers via relevant KG entities. Each path is validated for consistency with clinical logic and evidence-based medicine. Our pipeline generates detailed reasoning for various medical questions from 7 medical datasets, resulting in a dataset of 32,682 question-answer pairs, each with detailed, step-by-step explanations. Experiments demonstrate that fine-tuning with our dataset consistently boosts medical problem-solving capabilities, achieving significant gains of up to 7.7% for DeepSeek-Ditill-8B. Our top-performing model, MedReason-8B, outperforms the Huatuo-o1-8B, a state-of-the-art medical reasoning model, by up to 4.2% on the clinical benchmark MedBullets. We also engage medical professionals from diverse specialties to assess our dataset's quality, ensuring MedReason offers accurate and coherent medical reasoning. Our data, models, and code will be publicly available.
- Abstract(参考訳): 診断や治療計画のような医学的タスクは、特に生命にとって重要な領域において、正確で複雑な推論を必要とする。
数学的推論とは異なり、医学的推論は信頼性と正確性を確保するために慎重に検証可能な思考プロセスを要求する。
しかし、AIモデルの医学的推論能力を検証し、強化するために、透明でステップバイステップの推論を提供するデータセットが欠如している。
このギャップを埋めるため、大規模言語モデル(LLM)における忠実で説明可能な医療問題解決を可能にするために設計された、大規模で高品質な医療推論データセットであるMedReasonを紹介した。
我々は、構造化医療知識グラフ(KG)を用いて、臨床QAペアを推論の論理的連鎖に変換する。
各経路は、臨床論理とエビデンスに基づく医学との整合性に検証される。
我々のパイプラインは、7つの医学データセットから様々な医学的質問の詳細な推論を生成し、32,682の問合せ対のデータセットをそれぞれ詳細なステップバイステップで説明する。
実験では、データセットによる微調整が医学的問題解決能力を継続的に向上し、DeepSeek-Ditill-8Bで最大7.7%の大幅な向上を達成している。
私たちの最高のパフォーマンスモデルであるMedReason-8Bは、最先端の医療推論モデルであるHuatuo-o1-8Bを、臨床ベンチマークMedBulletsで最大4.2%上回っています。
さまざまな専門分野の医療専門家も参加して、データセットの品質を評価し、MedReasonが正確で一貫性のある医療推論を提供するようにしています。
私たちのデータ、モデル、コードは公開されます。
関連論文リスト
- LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - KGARevion: An AI Agent for Knowledge-Intensive Biomedical QA [31.080514888803886]
KGARevionは知識グラフに基づくエージェントで、知識集約的な質問に答える。
これは、大きな言語モデルに埋め込まれた潜伏した知識を活用することで、関連する三つ子を生成する。
そして、これらの三重項を知識グラフに対して検証し、エラーをフィルタリングし、正確で文脈的に関係のある情報のみを保持する。
論文 参考訳(メタデータ) (2024-10-07T00:17:37Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale [19.94415334436024]
我々は、データ準備を効率化し、新しいベンチマークMedVQAデータセットを構築するための半自動アノテーションプロセスを開発した。
これらのデータセットは、マルチモーダルな大言語モデルと人間のアノテーションによって生成される中間的な医学的意思決定の合理性を提供する。
我々はまた、医学的意思決定の合理性を取り入れた軽量な事前学習生成モデルを微調整する新しいフレームワーク、MedThinkを設計する。
論文 参考訳(メタデータ) (2024-04-18T17:53:19Z) - Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。
JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。
各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文 参考訳(メタデータ) (2024-02-28T05:44:41Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - "My nose is running.""Are you also coughing?": Building A Medical
Diagnosis Agent with Interpretable Inquiry Logics [80.55587329326046]
本稿では,DSMDの対話マネージャを実装するための,より解釈可能な意思決定プロセスを提案する。
推論を行うために、非常に透明なコンポーネントを持つモデルを考案する。
実験の結果,診断精度は7.7%,10.0%,3.0%向上した。
論文 参考訳(メタデータ) (2022-04-29T09:02:23Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。