論文の概要: Architecting Clinical Collaboration: Multi-Agent Reasoning Systems for Multimodal Medical VQA
- arxiv url: http://arxiv.org/abs/2507.05520v3
- Date: Tue, 26 Aug 2025 14:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 13:17:04.006197
- Title: Architecting Clinical Collaboration: Multi-Agent Reasoning Systems for Multimodal Medical VQA
- Title(参考訳): マルチモーダル医療VQAのためのマルチエージェント推論システム
- Authors: Karishma Thakrar, Shreyas Basavatia, Akshay Daftardar,
- Abstract要約: 遠隔医療による皮膚科医療は、しばしば個人訪問の豊かな文脈を欠いている。
本研究は,6つの構成にまたがる医用視覚質問応答の視覚言語モデルについて検討した。
- 参考スコア(独自算出の注目度): 1.2744523252873352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dermatological care via telemedicine often lacks the rich context of in-person visits. Clinicians must make diagnoses based on a handful of images and brief descriptions, without the benefit of physical exams, second opinions, or reference materials. While many medical AI systems attempt to bridge these gaps with domain-specific fine-tuning, this work hypothesized that mimicking clinical reasoning processes could offer a more effective path forward. This study tested seven vision-language models on medical visual question answering across six configurations: baseline models, fine-tuned variants, and both augmented with either reasoning layers that combine multiple model perspectives, analogous to peer consultation, or retrieval-augmented generation that incorporates medical literature at inference time, serving a role similar to reference-checking. While fine-tuning degraded performance in four of seven models with an average 30% decrease, baseline models collapsed on test data. Clinical-inspired architectures, meanwhile, achieved up to 70% accuracy, maintaining performance on unseen data while generating explainable, literature-grounded outputs critical for clinical adoption. These findings demonstrate that medical AI succeeds by reconstructing the collaborative and evidence-based practices fundamental to clinical diagnosis.
- Abstract(参考訳): 遠隔医療による皮膚科医療は、しばしば個人訪問の豊かな文脈を欠いている。
臨床医は、身体検査、第二の意見、参考資料の恩恵を受けずに、少数の画像と簡潔な説明に基づいて診断をしなければならない。
多くの医療AIシステムは、これらのギャップをドメイン固有の微調整で埋めようとしているが、この研究は、臨床推論プロセスの模倣が、より効果的な道筋を提供すると仮定した。
ベースラインモデル,微調整された変種,および複数のモデル視点を組み合わせた推論層,ピアコンサルテーション,あるいは推論時に医学文献を組み込んで参照チェックと同じような役割を果たす検索強化世代,の6つの構成にまたがる視覚的質問応答モデルについて検討した。
微調整による性能低下は7モデル中4モデルで平均30%低下したが、ベースラインモデルはテストデータで崩壊した。
一方、臨床にインスパイアされたアーキテクチャは、最大70%の精度を達成し、見えないデータのパフォーマンスを維持しながら、説明可能な文献的なアウトプットを生成する。
これらの結果から,医療用AIは,臨床診断の基本となる協調的・エビデンスに基づくプラクティスを再構築することで成功することが示された。
関連論文リスト
- MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。
1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文 参考訳(メタデータ) (2025-06-12T08:13:38Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion [4.821565717653691]
Med-VQA (Medicical Visual Question Answering) は、医療画像を用いて臨床的な疑問に答え、診断を支援する。
本研究では, 詳細な医療質問に対する階層型プロンプティングと階層型アンサーデコーダの2つのモジュールを含むHiCA-VQA法を提案する。
Rad-Restructベンチマークの実験により、HiCA-VQAフレームワークは階層的なきめ細かい質問に答える上で、既存の最先端メソッドよりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-04-04T03:03:12Z) - MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning [34.93995619867384]
LLM(Large Language Models)は、既存の医学的質問応答ベンチマークで素晴らしいパフォーマンスを示している。
MedAgentsBenchは、多段階の臨床推論、診断の定式化、および治療計画シナリオを必要とする医学的問題に焦点を当てたベンチマークである。
論文 参考訳(メタデータ) (2025-03-10T15:38:44Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis [44.76975131560712]
胸部X線診断(GEMeX)のための大規模・地中・説明可能な医用VQAベンチマークを導入する。
151,025の画像と1,605,575の質問により、GEMeXは現在最大の胸部X線VQAデータセットである。
論文 参考訳(メタデータ) (2024-11-25T07:36:46Z) - WangLab at MEDIQA-M3G 2024: Multimodal Medical Answer Generation using Large Language Models [5.7931394318054155]
タスクの英語圏における2つのスタンドアロン解について結果を報告する。
我々は,多段階LLM法とCLIP画像分類法を,今後の研究の道筋として捉えた。
論文 参考訳(メタデータ) (2024-04-22T20:29:58Z) - MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale [19.94415334436024]
我々は、データ準備を効率化し、新しいベンチマークMedVQAデータセットを構築するための半自動アノテーションプロセスを開発した。
これらのデータセットは、マルチモーダルな大言語モデルと人間のアノテーションによって生成される中間的な医学的意思決定の合理性を提供する。
我々はまた、医学的意思決定の合理性を取り入れた軽量な事前学習生成モデルを微調整する新しいフレームワーク、MedThinkを設計する。
論文 参考訳(メタデータ) (2024-04-18T17:53:19Z) - Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。
JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。
各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文 参考訳(メタデータ) (2024-02-28T05:44:41Z) - Q-Net: Query-Informed Few-Shot Medical Image Segmentation [5.615188751640673]
本稿では,専門医の学習機構を模倣したクエリインフォームドメタFSSアプローチを提案する。
我々は最近提案された異常検出にインスパイアされたADNetに基づいてQ-Netを構築する。
Q-Netは2つの広く使用されているデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-24T11:36:53Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。