論文の概要: MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility
- arxiv url: http://arxiv.org/abs/2506.00235v1
- Date: Fri, 30 May 2025 21:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.620025
- Title: MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility
- Title(参考訳): MedOrch:柔軟な拡張性のためのツール強化型推論エージェントによる診断
- Authors: Yexiao He, Ang Li, Boyi Liu, Zhewei Yao, Yuxiong He,
- Abstract要約: MedOrchは、専門的なツールや推論エージェントを編成し、総合的な医療的意思決定支援を提供する新しいフレームワークである。
我々は,アルツハイマー病の診断,胸部X線解釈,医用視覚質問応答の3つの医学的応用からMedOrchを評価した。
- 参考スコア(独自算出の注目度): 38.33724495011223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Healthcare decision-making represents one of the most challenging domains for Artificial Intelligence (AI), requiring the integration of diverse knowledge sources, complex reasoning, and various external analytical tools. Current AI systems often rely on either task-specific models, which offer limited adaptability, or general language models without grounding with specialized external knowledge and tools. We introduce MedOrch, a novel framework that orchestrates multiple specialized tools and reasoning agents to provide comprehensive medical decision support. MedOrch employs a modular, agent-based architecture that facilitates the flexible integration of domain-specific tools without altering the core system. Furthermore, it ensures transparent and traceable reasoning processes, enabling clinicians to meticulously verify each intermediate step underlying the system's recommendations. We evaluate MedOrch across three distinct medical applications: Alzheimer's disease diagnosis, chest X-ray interpretation, and medical visual question answering, using authentic clinical datasets. The results demonstrate MedOrch's competitive performance across these diverse medical tasks. Notably, in Alzheimer's disease diagnosis, MedOrch achieves an accuracy of 93.26%, surpassing the state-of-the-art baseline by over four percentage points. For predicting Alzheimer's disease progression, it attains a 50.35% accuracy, marking a significant improvement. In chest X-ray analysis, MedOrch exhibits superior performance with a Macro AUC of 61.2% and a Macro F1-score of 25.5%. Moreover, in complex multimodal visual question answering (Image+Table), MedOrch achieves an accuracy of 54.47%. These findings underscore MedOrch's potential to advance healthcare AI by enabling reasoning-driven tool utilization for multimodal medical data processing and supporting intricate cognitive tasks in clinical decision-making.
- Abstract(参考訳): 医療の意思決定は、さまざまな知識ソース、複雑な推論、さまざまな外部分析ツールの統合を必要とする、人工知能(AI)の最も困難な領域の1つである。
現在のAIシステムは、限定的な適応性を提供するタスク固有のモデルと、特別な外部知識やツールを基礎にすることなく、一般的な言語モデルのいずれかに依存していることが多い。
MedOrchは、複数の専門ツールや推論エージェントを編成し、総合的な医療的意思決定支援を提供する新しいフレームワークである。
MedOrchはモジュール型のエージェントベースのアーキテクチャを採用しており、コアシステムを変更することなく、ドメイン固有のツールの柔軟な統合を容易にする。
さらに、透明でトレーサブルな推論プロセスが保証され、臨床医がシステムのレコメンデーションの根底にある各中間ステップを慎重に検証することができる。
我々は、アルツハイマー病の診断、胸部X線解釈、および医用視覚質問応答の3つの医学的応用を、真正な臨床データセットを用いて評価した。
その結果、MedOrchの様々な医療課題における競争性能が示された。
特にアルツハイマー病の診断において、メドオルチは93.26%の精度を達成し、最先端のベースラインを4ポイント以上越えている。
アルツハイマー病の進行を予測するために、50.35%の精度が達成され、大幅な改善となった。
胸部X線分析では、MedOrchは61.2%のMacro AUCと25.5%のMacro F1スコアで優れたパフォーマンスを示している。
さらに、複雑なマルチモーダル視覚質問応答(Image+Table)では、MedOrchは54.47%の精度を達成している。
これらの知見は、マルチモーダルな医療データ処理のための推論駆動ツールの利用を可能にし、臨床意思決定における複雑な認知タスクをサポートすることで、医療AIを進化させるMedOrchの可能性を裏付けるものである。
関連論文リスト
- MedBookVQA: A Systematic and Comprehensive Medical Benchmark Derived from Open-Access Book [5.318470975871017]
MedBookVQAは、オープンアクセス医療教科書から派生した、体系的で包括的なマルチモーダルベンチマークである。
当科では, モダリティ認識, 分類, 解剖学的診断, 症状診断, 外科的手術を含む, 5000の臨床的関連質問項目を作成した。
我々は、プロプライエタリ、オープンソース、医療、推論モデルを含む幅広いMLLMを評価し、タスクタイプとモデルカテゴリ間での大幅なパフォーマンス格差を明らかにした。
論文 参考訳(メタデータ) (2025-06-01T06:28:36Z) - 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [0.29987253996125257]
3MDBenchは、LVLM駆動の遠隔医療相談をシミュレートし評価するためのオープンソースのフレームワークである。
内部推論によるマルチモーダル対話は、非対話設定よりもF1スコアが6.5%向上する。
診断畳み込みネットワークからLVLMのコンテキストに予測を注入すると、F1は最大20%上昇する。
論文 参考訳(メタデータ) (2025-03-26T07:32:05Z) - Agentic Medical Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge [7.485437086384786]
AMG-RAGは医療知識グラフの構築と継続的な更新を自動化するフレームワークである。
推論を統合し、PubMedやWikiSearchといった現在の外部証拠を検索する。
MEDQAのF1スコアは74.1%、MEDMCQAの精度は66.34パーセントで、同等のモデルと10倍から100倍のモデルの両方を上回っている。
論文 参考訳(メタデータ) (2025-02-18T16:29:45Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology [0.6397820821509177]
本稿では,大規模言語モデル(LLM)を中心的推論エンジンとして活用する,マルチモーダル医療用AIの代替手法を提案する。
このエンジンは、医療用AIツールのセットを自律的に調整し、デプロイする。
適切なツール(97%)、正しい結論(93.6%)、完全(94%)、個人患者に有用な推奨(89.2%)を提示する能力が高いことを示す。
論文 参考訳(メタデータ) (2024-04-06T15:50:19Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。