論文の概要: AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation
- arxiv url: http://arxiv.org/abs/2505.02830v1
- Date: Mon, 05 May 2025 17:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.76463
- Title: AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation
- Title(参考訳): AOR:胸部X線解析における医学的マルチモーダルモデルのための解剖学的オントロジー誘導推論
- Authors: Qingqiu Li, Zihang Cui, Seongsu Bae, Jilan Xu, Runtian Yuan, Yuejie Zhang, Rui Feng, Quanli Shen, Xiaobo Zhang, Junjun He, Shujun Wang,
- Abstract要約: 胸部X線検査 (CXRs) は, 臨床現場で最も頻度の高い画像検査である。
大規模マルチモーダルモデル(LMM)の最近の進歩により、自動CXR解釈が可能となり、診断精度と効率が向上した。
現在の医療用LMM(MLMM)は,(1)地域レベルでの理解と相互作用が不十分なこと,(2)単一段階の推論による限定的な解釈可能性の2つの課題に直面している。
- 参考スコア(独自算出の注目度): 25.070570876478417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chest X-rays (CXRs) are the most frequently performed imaging examinations in clinical settings. Recent advancements in Large Multimodal Models (LMMs) have enabled automated CXR interpretation, enhancing diagnostic accuracy and efficiency. However, despite their strong visual understanding, current Medical LMMs (MLMMs) still face two major challenges: (1) Insufficient region-level understanding and interaction, and (2) Limited accuracy and interpretability due to single-step reasoning. In this paper, we empower MLMMs with anatomy-centric reasoning capabilities to enhance their interactivity and explainability. Specifically, we first propose an Anatomical Ontology-Guided Reasoning (AOR) framework, which centers on cross-modal region-level information to facilitate multi-step reasoning. Next, under the guidance of expert physicians, we develop AOR-Instruction, a large instruction dataset for MLMMs training. Our experiments demonstrate AOR's superior performance in both VQA and report generation tasks.
- Abstract(参考訳): 胸部X線検査 (CXRs) は, 臨床現場で最も頻度の高い画像検査である。
大規模マルチモーダルモデル(LMM)の最近の進歩により、自動CXR解釈が可能となり、診断精度と効率が向上した。
しかし, 現状の医療用LMM(MLMM)は, 強い視覚的理解にもかかわらず, 1) 地域レベルでの理解と相互作用が不十分であり, (2) 単一ステップの推論による精度と解釈性に限界がある,という2つの大きな課題に直面している。
本稿では,解剖学中心の推論能力を持つMLMMに力を与え,その相互作用性と説明可能性を高める。
具体的には、まず、多段階推論を容易にするために、クロスモーダルな領域レベルの情報に焦点を当てた解剖学的オントロジー誘導推論(AOR)フレームワークを提案する。
次に,専門医の指導のもと,MLMM訓練のための大規模指導データセットであるAOR-Instructionを開発する。
本実験は,VQAおよびレポート生成タスクにおいて,AORの優れた性能を示すものである。
関連論文リスト
- ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - MAGDA: Multi-agent guideline-driven diagnostic assistance [43.15066219293877]
救急部門、地方病院、または未開発地域の診療所では、臨床医は訓練された放射線技師による高速な画像分析を欠いていることが多い。
本研究では,ゼロショットガイドライン駆動意思決定支援のための新しいアプローチを提案する。
我々は、患者診断に到達するために協調する、対照的な視覚言語モデルで強化された複数のLLMエージェントのシステムをモデル化する。
論文 参考訳(メタデータ) (2024-09-10T09:10:30Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。