論文の概要: Human-Guided Agentic AI for Multimodal Clinical Prediction: Lessons from the AgentDS Healthcare Benchmark
- arxiv url: http://arxiv.org/abs/2602.19502v1
- Date: Mon, 23 Feb 2026 04:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.675134
- Title: Human-Guided Agentic AI for Multimodal Clinical Prediction: Lessons from the AgentDS Healthcare Benchmark
- Title(参考訳): マルチモーダル臨床予測のためのヒューマンガイドエージェントAI:AgenDS Healthcareベンチマークからの教訓
- Authors: Lalitha Pranathi Pulavarthy, Raajitha Muthyala, Aravind V Kuruvikkattil, Zhenan Yin, Rashmita Kudamala, Saptarshi Purkayastha,
- Abstract要約: エージェントAIの人的指導がマルチモーダルな臨床予測をどのように改善するかを検討する。
本研究は,30日間の入院予測,救急医療費予測,退院準備状況評価という3つのベンチマーク課題に対するアプローチを提案する。
医療領域全体では5位にランクインし, 退院準備作業では3位にランクインした。
- 参考スコア(独自算出の注目度): 0.5066646435185324
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Agentic AI systems are increasingly capable of autonomous data science workflows, yet clinical prediction tasks demand domain expertise that purely automated approaches struggle to provide. We investigate how human guidance of agentic AI can improve multimodal clinical prediction, presenting our approach to all three AgentDS Healthcare benchmark challenges: 30-day hospital readmission prediction (Macro-F1 = 0.8986), emergency department cost forecasting (MAE = $465.13), and discharge readiness assessment (Macro-F1 = 0.7939). Across these tasks, human analysts directed the agentic workflow at key decision points, multimodal feature engineering from clinical notes, scanned PDF billing receipts, and time-series vital signs; task-appropriate model selection; and clinically informed validation strategies. Our approach ranked 5th overall in the healthcare domain, with a 3rd-place finish on the discharge readiness task. Ablation studies reveal that human-guided decisions compounded to a cumulative gain of +0.065 F1 over automated baselines, with multimodal feature extraction contributing the largest single improvement (+0.041 F1). We distill three generalizable lessons: (1) domain-informed feature engineering at each pipeline stage yields compounding gains that outperform extensive automated search; (2) multimodal data integration requires task-specific human judgment that no single extraction strategy generalizes across clinical text, PDFs, and time-series; and (3) deliberate ensemble diversity with clinically motivated model configurations outperforms random hyperparameter search. These findings offer practical guidance for teams deploying agentic AI in healthcare settings where interpretability, reproducibility, and clinical validity are essential.
- Abstract(参考訳): エージェントAIシステムは、自律的なデータサイエンスワークフローがますます多くなっているが、臨床予測タスクは、純粋に自動化されたアプローチが提供に苦慮する分野の専門知識を要求する。
エージェントAIの人的指導がマルチモーダルな臨床予測を改善する方法について検討し、30日間の病院入院予測(Macro-F1=0.8986)、救急部門費予測(MAE=465.13)、退院準備評価(Macro-F1=0.7939)の3つの課題にアプローチを提示した。
これらのタスク全体にわたって、人間アナリストは、重要な決定ポイントでのエージェントワークフロー、臨床ノートからのマルチモーダル特徴工学、スキャンされたPDF請求レシート、時系列のバイタルサイン、タスクに適したモデル選択、臨床的に情報を得たバリデーション戦略を指示した。
医療領域全体では5位にランクインし, 退院準備作業では3位にランクインした。
アブレーション研究では、自動ベースラインよりも+0.065 F1の累積ゲインと、最大の単一改善(+0.041 F1)に寄与するマルチモーダル特徴抽出とが混ざり合っていることが明らかとなった。
筆者らは,(1)パイプラインの各段階におけるドメインインフォームド・フィーチャー・エンジニアリングは,広範囲な自動探索を上回り,複合的なゲインを得られること,(2)マルチモーダル・データ統合は,単一の抽出戦略が臨床テキスト,PDF,時系列にわたって一般化しないというタスク固有の人的判断を必要とすること,(3)臨床的に動機付けられたモデル構成による意図的なアンサンブル多様性は,ランダムなハイパーパラメータ・サーチより優れていること,の3つの一般的な教訓を抽出した。
これらの知見は、解釈可能性、再現性、臨床的妥当性が不可欠である医療環境において、エージェントAIをデプロイするチームに実用的なガイダンスを提供する。
関連論文リスト
- Automated Clinical Problem Detection from SOAP Notes using a Collaborative Multi-Agent LLM Architecture [8.072932739333309]
我々は,このギャップに対処するために,臨床相談チームをモデル化する共同マルチエージェントシステム(MAS)を導入する。
このシステムは、SOAPノートの主観的(S)および目的的(O)セクションのみを分析することによって、臨床上の問題を特定する。
マネージャエージェントは、階層的で反復的な議論に従事し、合意に達するために、動的に割り当てられた専門家エージェントのチームを編成する。
論文 参考訳(メタデータ) (2025-08-29T17:31:24Z) - CardAIc-Agents: A Multimodal Framework with Hierarchical Adaptation for Cardiac Care Support [37.20545002349272]
CardAIc-Agentsは、AIモデルを外部ツールで拡張し、多様な心臓タスクを適応的にサポートするフレームワークである。
カルディアックRAGのエージェントは、心の知識から一般的な計画を作成し、チーフエージェントはこれらの計画を自律的に実行し、決定を下すためのツールを統合した。
3つのデータセットを対象とした実験では、主流のVision-Language Models (VLM)、最先端のエージェントシステム、微調整されたVLMと比較して、CardAIc-Agentsの有効性が示された。
論文 参考訳(メタデータ) (2025-08-18T16:17:12Z) - Holistic Artificial Intelligence in Medicine; improved performance and explainability [4.862319939462255]
xHAIM(Explainable HAIM)は、ジェネレーティブAIを活用して予測と説明可能性の両方を強化する新しいフレームワークである。
xHAIM は平均 AUC を 79.9% から 90.3% に改善する。
AIをブラックボックスの予測装置から説明可能な意思決定支援システムに変換し、臨床医が関連する患者データにインタラクティブに予測を追跡できるようにする。
論文 参考訳(メタデータ) (2025-06-30T19:15:06Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。
我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文 参考訳(メタデータ) (2024-11-16T18:19:53Z) - Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology [0.6397820821509177]
本稿では,大規模言語モデル(LLM)を中心的推論エンジンとして活用する,マルチモーダル医療用AIの代替手法を提案する。
このエンジンは、医療用AIツールのセットを自律的に調整し、デプロイする。
適切なツール(97%)、正しい結論(93.6%)、完全(94%)、個人患者に有用な推奨(89.2%)を提示する能力が高いことを示す。
論文 参考訳(メタデータ) (2024-04-06T15:50:19Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。