論文の概要: ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2605.20176v1
- Date: Tue, 19 May 2026 17:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.577063
- Title: ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning
- Title(参考訳): ClinSeekAgent: エージェント的臨床推論のためのマルチモーダルエビデンス検索の自動化
- Authors: Juncheng Wu, Letian Zhang, Yuhan Wang, Haoqin Tu, Hardy Chen, Zijun Wang, Cihang Xie, Yuyin Zhou,
- Abstract要約: ClinSeekAgentは動的マルチモーダルエビデンスのための自動エージェントフレームワークである。
ClinSeekAgentは、臨床クエリと生のデータソースへのアクセスのみを前提として、医療知識ベースへの問い合わせ、生のEHRのナビゲート、医療画像ツールの呼び出しによって証拠を集めている。
- 参考スコア(独自算出の注目度): 49.05361955143476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and agentic systems have shown promise for clinical decision support, but existing works largely assume that evidence has already been curated and handed to the model. Real-world clinical workflows instead require agents to actively seek, iteratively plan, and synthesize multimodal evidence from heterogeneous sources. In this paper, we introduce ClinSeekAgent, an automated agentic framework for dynamic multimodal evidence seeking that shifts the paradigm from passive evidence consumption to active evidence acquisition. Given only a clinical query and access to raw data sources, ClinSeekAgent gathers evidence by querying medical knowledge bases, navigating raw EHRs, and invoking medical imaging tools; refines its hypotheses as new information emerges; and integrates the collected evidence into grounded clinical decisions. ClinSeekAgent serves both as an inference-time agent for frontier LLMs and as a training-time pipeline for distilling high-quality agent trajectories into compact open-source models. To validate its inference-time effectiveness, we construct ClinSeek-Bench, which pairs Curated Input reasoning from fixed pre-selected evidence with Automated Evidence-Seeking over raw clinical data. On text-only EHR tasks, ClinSeekAgent improves Claude Opus 4.6 from 60.0 to 63.2 overall F1 and MiniMax M2.5 from 43.1 to 47.3, with positive risk-prediction gains in 7 out of 9 evaluated host models. On multimodal tasks, ClinSeekAgent improves Claude Opus 4.6 from 47.5 to 62.6 (+15.1); all evaluated models improve across the three CXR-related task groups. We further validate ClinSeekAgent as a training pipeline by distilling agentic evidence-seeking trajectories into ClinSeek-35B-A3B, which achieves 34.0 average F1 on existing AgentEHR-Bench, improving over its Qwen3.5-35B-A3B baseline by +11.9 points and approaching Claude Opus 4.6.
- Abstract(参考訳): 大規模言語モデル (LLMs) とエージェントシステム (エージェントシステム) は, 臨床診断支援の可能性を示唆しているが, 既存の研究では, 証拠が既に収集され, モデルに渡されていると推定されている。
実際の臨床ワークフローでは、エージェントが積極的に探索し、反復的に計画し、異質な情報源から多様の証拠を合成する必要がある。
本稿では、動的マルチモーダルエビデンスのための自動エージェントフレームワークであるClinSeekAgentを紹介し、このパラダイムを受動的エビデンス消費からアクティブエビデンス獲得へとシフトさせる。
ClinSeekAgentは、医療知識ベースを検索し、生のEHRをナビゲートし、医療画像ツールを起動することで証拠を集め、新しい情報が現れるにつれて仮説を洗練し、収集された証拠を臨床上の決定に組み込む。
ClinSeekAgentは、フロンティアLSMの推論時エージェントと、高品質なエージェントトラジェクトリをコンパクトなオープンソースモデルに蒸留するための訓練時パイプラインとして機能する。
ClinSeek-Benchは, 臨床データに対する自動エビデンス探索と固定された事前選択された証拠からの入力推論を組み合わせ, 予測時間の有効性を検証した。
テキストのみの EHR タスクでは、ClinSeekAgent は Claude Opus 4.6 を 60.0 から 63.2 に改善し、MiniMax M2.5 を 43.1 から 47.3 に改善した。
マルチモーダルタスクでは、ClinSeekAgent は Claude Opus 4.6 を 47.5 から 62.6 (+15.1) に改善した。
さらに、ClinSeekAgentをトレーニングパイプラインとして、ClinSeek-35B-A3Bを蒸留し、既存のAgentEHR-Bench上で34.0の平均F1を達成し、Qwen3.5-35B-A3Bベースラインを+11.9ポイント改善し、Claude Opus 4.6に近づいた。
関連論文リスト
- CuraView: A Multi-Agent Framework for Medical Hallucination Detection with GraphRAG-Enhanced Knowledge Verification [3.422186949568493]
本報告では,文レベル検出のためのフレームワークであるCuraViewについて述べる。
CuraViewは、患者レベルのEHRからGraphRAGベースの知識グラフを構築する。
我々は,50例の患者を対象に,Ex Discharge-Meベンチマークから250例のCuraViewを評価した。
論文 参考訳(メタデータ) (2026-05-05T08:05:31Z) - RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography [8.642043084168817]
視覚言語モデル(VLM)は、CT(Computed Tomography)などの医用画像のAI駆動による解釈と報告を著しく進歩させた。
しかし、既存の手法は、臨床医を最終出力の受動的観察者に還元し、彼らが検査、検証、精査するための解釈可能な推論の痕跡を提供しない。
我々は,段階的かつ解釈可能なプロセスを通じてCTレポートを生成するツール使用AIエージェントであるRadAgentを紹介する。
論文 参考訳(メタデータ) (2026-04-16T17:09:30Z) - Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - Strong Reasoning Isn't Enough: Evaluating Evidence Elicitation in Interactive Diagnosis [29.630872344186873]
インタラクティブな医療相談は、エージェントが不確実性の下で行方不明な臨床証拠を積極的に引き出す必要がある。
既存の評価の大部分は静的あるいは結果中心であり、エビデンス収集プロセスを無視している。
シミュレーションされた患者と、原子的証拠に基づく再現されたレポーターを用いて、コンサルテーションプロセスを明示的にモデル化するインタラクティブな評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:36:35Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - UCAgents: Unidirectional Convergence for Visual Evidence Anchored Multi-Agent Medical Decision-Making [23.911343934512626]
VLM(Vision-Language Models)は、医学的診断において有望であるが、推論的分離に苦しむ。
最近のマルチエージェントフレームワークは、単一モデルのバイアスを軽減するために、MDT(Multidiciplinary Team)の議論をシミュレートしている。
構造化された証拠監査を通じて一方向収束を強制するUCAgentsを提案する。
論文 参考訳(メタデータ) (2025-12-02T07:20:21Z) - Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - SelfCheckAgent: Zero-Resource Hallucination Detection in Generative Large Language Models [0.16385815610837165]
SelfCheckAgentは、3つの異なるエージェントを統合する新しいフレームワークである。
これらのエージェントは幻覚検出に対する堅牢な多次元アプローチを提供する。
このフレームワークには三角形戦略も組み込まれており、SelfCheckAgentの強みを高めている。
論文 参考訳(メタデータ) (2025-02-03T20:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。