論文の概要: MedAtlas: Evaluating LLMs for Multi-Round, Multi-Task Medical Reasoning Across Diverse Imaging Modalities and Clinical Text
- arxiv url: http://arxiv.org/abs/2508.10947v1
- Date: Wed, 13 Aug 2025 17:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.603419
- Title: MedAtlas: Evaluating LLMs for Multi-Round, Multi-Task Medical Reasoning Across Diverse Imaging Modalities and Clinical Text
- Title(参考訳): MedAtlas: マルチラウンド・マルチタスク・メディカル・推論のためのLCMの評価 : 横方向画像モダリティと臨床テキスト
- Authors: Ronghao Xu, Zhen Huang, Yangbo Wei, Xiaoqian Zhou, Zikang Xu, Ting Liu, Zihang Jiang, S. Kevin Zhou,
- Abstract要約: MedAtlasは、現実的な医学的推論タスクにおいて、大きな言語モデルを評価するための新しいベンチマークフレームワークである。
MedAtlasの特徴は、マルチターン・ダイアログ、マルチモーダル・メディカル・イメージ・インタラクション、マルチタスク統合、高臨床的忠実性である。
それぞれの症例は、実際の診断から派生したもので、テキスト医療史とCT、MRI、PET、超音波、X線などの複数の画像モダリティの時間的相互作用を取り入れている。
- 参考スコア(独自算出の注目度): 25.102399692530245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence has demonstrated significant potential in clinical decision-making; however, developing models capable of adapting to diverse real-world scenarios and performing complex diagnostic reasoning remains a major challenge. Existing medical multi-modal benchmarks are typically limited to single-image, single-turn tasks, lacking multi-modal medical image integration and failing to capture the longitudinal and multi-modal interactive nature inherent to clinical practice. To address this gap, we introduce MedAtlas, a novel benchmark framework designed to evaluate large language models on realistic medical reasoning tasks. MedAtlas is characterized by four key features: multi-turn dialogue, multi-modal medical image interaction, multi-task integration, and high clinical fidelity. It supports four core tasks: open-ended multi-turn question answering, closed-ended multi-turn question answering, multi-image joint reasoning, and comprehensive disease diagnosis. Each case is derived from real diagnostic workflows and incorporates temporal interactions between textual medical histories and multiple imaging modalities, including CT, MRI, PET, ultrasound, and X-ray, requiring models to perform deep integrative reasoning across images and clinical texts. MedAtlas provides expert-annotated gold standards for all tasks. Furthermore, we propose two novel evaluation metrics: Round Chain Accuracy and Error Propagation Resistance. Benchmark results with existing multi-modal models reveal substantial performance gaps in multi-stage clinical reasoning. MedAtlas establishes a challenging evaluation platform to advance the development of robust and trustworthy medical AI.
- Abstract(参考訳): 人工知能は臨床的な意思決定において大きな可能性を示してきたが、様々な現実世界のシナリオに適応し、複雑な診断推論を実行するモデルを開発することは大きな課題である。
既存の医用マルチモーダルベンチマークは、通常、単一イメージ、単一ターンタスクに限られる。
このギャップに対処するために,現実的な医学的推論タスクにおいて,大規模言語モデルを評価するために設計された新しいベンチマークフレームワークであるMedAtlasを紹介した。
MedAtlasの特徴は、マルチターン・ダイアログ、マルチモーダル・メディカル・イメージ・インタラクション、マルチタスク統合、高臨床的忠実さである。
オープンエンドマルチターン質問応答、クローズドエンドマルチターン質問応答、マルチイメージ共同推論、包括的疾患診断の4つのコアタスクをサポートする。
それぞれの症例は、実際の診断のワークフローから派生し、CT、MRI、PET、超音波、X線などの複数の画像モダリティとテキストの医療履歴の間の時間的相互作用を取り入れ、画像と臨床テキストをまたいだ深い統合的推論を行うモデルを必要とする。
MedAtlasは、すべてのタスクに専門家がアノテートした金の標準を提供する。
さらに,ラウンドチェーン精度と誤差伝搬抵抗の2つの新しい評価指標を提案する。
既存のマルチモーダルモデルによるベンチマークの結果は、多段階臨床推論においてかなりの性能差を示す。
MedAtlasは、堅牢で信頼性の高い医療AIの開発を進めるための、挑戦的な評価プラットフォームを確立している。
関連論文リスト
- A Survey of Multimodal Ophthalmic Diagnostics: From Task-Specific Approaches to Foundational Models [28.34025112894094]
このレビューでは、タスク固有のマルチモーダルアプローチと大規模マルチモーダル基盤モデルという2つの主要なカテゴリに焦点を当てている。
この調査は重要なデータセット、評価指標、方法論の革新について批判的に調査している。
また、データの多様性、アノテーションの制限、解釈可能性の欠如、様々な患者集団における一般化可能性の問題など、現在進行中の課題についても論じている。
論文 参考訳(メタデータ) (2025-07-31T10:49:21Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Advancing Conversational Diagnostic AI with Multimodal Reasoning [44.1996223689966]
アーティキュレート・メディカル・インテリジェンス・エクスプローラー(AMIE)
システムは、対話フローを中間モデル出力によって動的に制御する状態認識対話フレームワークを実装している。
患者アクターとのチャットベースの相談の無作為で盲目なOSCEスタイルの研究において, AMIEをプライマリケア医師(PCP)と比較した。
論文 参考訳(メタデータ) (2025-05-06T20:52:01Z) - UMIT: Unifying Medical Imaging Tasks via Vision-Language Models [17.65946656129399]
UMITは医療画像処理に特化したマルチモーダル・マルチタスクVLMである。
視覚的質問応答、疾患検出、医療報告生成など、さまざまな課題を解決できる。
英語と中国語の両方をサポートし、その適用範囲を全世界で拡大している。
論文 参考訳(メタデータ) (2025-03-20T06:43:36Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。