論文の概要: MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies
- arxiv url: http://arxiv.org/abs/2603.24649v1
- Date: Wed, 25 Mar 2026 17:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.913675
- Title: MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies
- Title(参考訳): MedOpenClaw: 検査可能な医療用イメージングエージェント
- Authors: Weixiang Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Chengzhi Shen, Min Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan,
- Abstract要約: 現在、医療画像タスクにおける視覚言語モデル(VLM)の評価は、事前に選択された2D画像に頼ることで、臨床上の現実を過度に単純化している。
本稿では,標準医療ツールやビューア内でVLMを動的に動作させるための監査可能なランタイムであるMEDOPENCLAWを提案する。
我々はまた,脳MRIと肺CT/PETのフルスタディな医療画像ベンチマークであるMEDFLOWBENCHを紹介した。
- 参考スコア(独自算出の注目度): 43.17392932337315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, evaluating vision-language models (VLMs) in medical imaging tasks oversimplifies clinical reality by relying on pre-selected 2D images that demand significant manual labor to curate. This setup misses the core challenge of realworld diagnostics: a true clinical agent must actively navigate full 3D volumes across multiple sequences or modalities to gather evidence and ultimately support a final decision. To address this, we propose MEDOPENCLAW, an auditable runtime designed to let VLMs operate dynamically within standard medical tools or viewers (e.g., 3D Slicer). On top of this runtime, we introduce MEDFLOWBENCH, a full-study medical imaging benchmark covering multi-sequence brain MRI and lung CT/PET. It systematically evaluates medical agentic capabilities across viewer-only, tool-use, and open-method tracks. Initial results reveal a critical insight: while state-of-the-art LLMs/VLMs (e.g., Gemini 3.1 Pro and GPT-5.4) can successfully navigate the viewer to solve basic study-level tasks, their performance paradoxically degrades when given access to professional support tools due to a lack of precise spatial grounding. By bridging the gap between static-image perception and interactive clinical workflows, MEDOPENCLAW and MEDFLOWBENCH establish a reproducible foundation for developing auditable, full-study medical imaging agents.
- Abstract(参考訳): 現在、医用画像タスクにおける視覚言語モデル(VLM)の評価は、手作業による治療を必要とする事前選択された2D画像に頼ることで、臨床上の現実を過度に単純化している。
真の臨床エージェントは、複数のシーケンスやモダリティにまたがる完全な3Dボリュームを積極的にナビゲートし、証拠を収集し、最終的な決定を支持する必要がある。
そこで本研究では,標準的な医療ツールやビューア(3Dスライダなど)内で,VLMを動的に動作させるための監査可能なランタイムであるMEDOPENCLAWを提案する。
このランタイム上に、マルチシーケンス脳MRIと肺CT/PETをカバーするフルスタディな医療画像ベンチマークであるMEDFLOWBENCHを導入する。
ビューアーオンリー、ツールユース、オープンメタルトラックにまたがる医療エージェント機能を体系的に評価する。
最先端のLLM/VLM(例:Gemini 3.1 Pro、GPT-5.4)は、視聴者が基本的な学習レベルの課題を解くためにうまくナビゲートできるが、その性能は、正確な空間的接地が欠如しているため、専門的な支援ツールにアクセスできると、パラドックス的に低下する。
静的画像認識とインタラクティブな臨床ワークフローのギャップを埋めることにより、MEDOPENCLAWとMEDFLOWBENCHは、可聴でフルスタディな医用イメージングエージェントを開発するための再現可能な基盤を確立する。
関連論文リスト
- 3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection [0.31351527202068447]
3次元MRIにおける視覚言語表現学習を支援するフレームワークであるMedMAPを提案する。
MedMAPは、モダリティ対応の視覚言語アライメントステージと、多臓器異常検出のための微調整ステージとを備える。
MedMoM-MRI3Dを用いた実験により,MedMAPは3次元MRIによる多臓器異常検出において既存のVLMよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2026-02-27T03:37:55Z) - Incentivizing Tool-augmented Thinking with Images for Medical Image Analysis [35.90026194642237]
Ophiuchusは汎用的なツール拡張フレームワークで、MLLMを装備し、追加の視覚的証拠が必要かどうかを判断する。
われわれのアプローチは、ツール統合推論を通じて「イメージで考える」ことができる医療AIエージェントへの道を照らしている。
論文 参考訳(メタデータ) (2025-12-16T07:37:23Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement [15.28003304776022]
インコンテキスト学習は、普遍的な医用画像解析に有望なパラダイムを提供する。
我々は22のデータセットで訓練された3次元医用画像の汎用ICLモデルである textbfMedverse を提案する。
Medverseは、予測を粗いものから細かいものへと段階的に洗練する、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
論文 参考訳(メタデータ) (2025-09-11T08:10:49Z) - Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2025-09-01T10:59:39Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - CLIP in Medical Imaging: A Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
CLIPの使用は最近、医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。