論文の概要: AgentRx: A Benchmark Study of LLM Agents for Multimodal Clinical Prediction Tasks
- arxiv url: http://arxiv.org/abs/2605.10286v1
- Date: Mon, 11 May 2026 09:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.705937
- Title: AgentRx: A Benchmark Study of LLM Agents for Multimodal Clinical Prediction Tasks
- Title(参考訳): AgentRx:マルチモーダル臨床予測タスクのためのLCMエージェントのベンチマーク研究
- Authors: Baraa Al Jorf, Farah E. Shamout,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、様々な医療タスクにおいて顕著なパフォーマンスを示した。
コードと評価フレームワークをオープンソース化することで、この研究は、医療におけるエージェントシステムに関連する将来の開発をサポートするための、新しいベンチマークを提供します。
- 参考スコア(独自算出の注目度): 0.858186282419397
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building effective clinical decision support systems requires the synthesis of complex heterogeneous multimodal data. Such modalities include temporal electronic health records data, medical images, radiology reports, and clinical notes. Large language model (LLM)-based agents have shown impressive performance in various healthcare tasks, especially those involving textual modalities. Considering the fragmentation of healthcare data across hospital systems, collaborative agent frameworks present a promising direction to mitigate data sharing challenges. However, the effectiveness of LLM agents for multimodal clinical risk prediction remains largely unexamined. In this work, we conduct a systematic evaluation of LLM-based agents for clinical prediction tasks using large-scale real-world data. We assess performance in unimodal and multimodal settings and quantify performance gaps between single agent and multi-agent systems. Our findings highlight that single agent frameworks outperform naive multi-agent systems, are better at handling multimodal data, and are better calibrated. This underscores a critical need for improving multi-agent collaboration to better handle heterogeneous inputs. By open-sourcing our code and evaluation framework, this work offers a new benchmark to support future developments relating to agentic systems in healthcare.
- Abstract(参考訳): 効果的な臨床診断支援システムの構築には、複雑な異種多モードデータの合成が必要である。
このようなモダリティには、時間的電子的健康記録データ、医療画像、放射線医学レポート、臨床ノートなどがある。
大規模言語モデル(LLM)に基づくエージェントは、特にテキストモダリティを含む様々な医療タスクにおいて、顕著なパフォーマンスを示した。
病院システム全体にわたる医療データの断片化を考えると、協調エージェントフレームワークはデータ共有の課題を軽減するための有望な方向性を示す。
しかし, マルチモーダル臨床リスク予測におけるLLM薬の有効性は未検討である。
本研究では,LLMをベースとした大規模実世界のデータを用いた臨床予測タスクの体系的評価を行う。
単一エージェントとマルチエージェントシステム間の性能ギャップを定量的に評価する。
以上の結果から,単一エージェントフレームワークがより優れたマルチエージェントシステムを実現し,マルチモーダルデータ処理に優れ,キャリブレーションも良好であることが示唆された。
これは、異種入力の処理を改善するために、マルチエージェントコラボレーションを改善するための重要な必要性を浮き彫りにする。
コードと評価フレームワークをオープンソース化することで、この研究は、医療におけるエージェントシステムに関連する将来の開発をサポートするための、新しいベンチマークを提供します。
関連論文リスト
- CoMMa: Contribution-Aware Medical Multi-Agents From A Game-Theoretic Perspective [17.875369977050926]
オンコロジー決定支援タスクに取り組むために,コントリビューション・アウェア・メディカル・マルチエージェント (CoMMa) を提案する。
スペシャリストは分割された証拠を操作し、堅牢な意思決定のためのゲーム理論の目的を通して調整する。
多様なオンコロジーベンチマークに基づいて評価されたCoMMaは、データ分散およびロールベースのマルチエージェントベースラインよりも高い精度と安定したパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-09T20:04:58Z) - MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - MoMA: A Mixture-of-Multimodal-Agents Architecture for Enhancing Clinical Prediction Modelling [5.334856176687711]
複数の大規模言語モデル (LLM) エージェントを臨床予測に利用するために設計された新しいアーキテクチャであるMixture-of-Multimodal-Agents (MoMA) を導入する。
MoMAは、医学画像や実験結果などの非テクストのモダリティを構造化されたテキスト要約に変換するために、特殊なLLMエージェント(特殊エージェント)を使用している。
MoMAは現在の最先端メソッドよりも優れており、さまざまなタスクにおける精度と柔軟性の向上を強調している。
論文 参考訳(メタデータ) (2025-08-07T15:28:34Z) - MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks [27.717720332927296]
我々はMedAgentBoardを紹介する。MedAgentBoardは、マルチエージェントコラボレーション、シングルLLM、および従来のアプローチの体系的評価のための総合的なベンチマークである。
MedAgentBoardには、医療(視覚)質問応答、レイサマリ生成、構造化電子健康記録(EHR)予測モデリング、臨床ワークフロー自動化の4つの多様な医療タスクカテゴリが含まれている。
マルチエージェントコラボレーションは特定のシナリオにおいてメリットを示すが、高度な単一LLMを一貫して上回るものではない。
論文 参考訳(メタデータ) (2025-05-18T11:28:17Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。