論文の概要: MEDIC-AD: Towards Medical Vision-Language Model's Clinical Intelligence
- arxiv url: http://arxiv.org/abs/2603.27176v1
- Date: Sat, 28 Mar 2026 07:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.827264
- Title: MEDIC-AD: Towards Medical Vision-Language Model's Clinical Intelligence
- Title(参考訳): MEDIC-AD : 医用ビジョンランゲージモデルの臨床知性に向けて
- Authors: Woohyeon Park, Jaeik Kim, Sunghwan Steve Cho, Pa Hong, Wookyoung Jeong, Yoojin Nam, Namjoon Kim, Ginny Y. Wong, Ka Chun Cheung, Jaeyoung Do,
- Abstract要約: 現在の医療ビジョンランゲージモデル(VLM)には、その幅広い知識を臨床的に実行可能なアウトプットに変換するメカニズムが欠けている。
MEDIC-ADは臨床指向のVLMであり,これら3つの能力をステージワイドフレームワークを通じて強化する。
MEDIC-ADは, 異常検出, 症状追跡, 異常セグメンテーションにおける性能を着実に向上させる。
- 参考スコア(独自算出の注目度): 17.512220295924816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lesion detection, symptom tracking, and visual explainability are central to real-world medical image analysis, yet current medical Vision-Language Models (VLMs) still lack mechanisms that translate their broad knowledge into clinically actionable outputs. To bridge this gap, we present MEDIC-AD, a clinically oriented VLM that strengthens these three capabilities through a stage-wise framework. First, learnable anomaly-aware tokens (<Ano>) encourage the model to focus on abnormal regions and build more discriminative lesion centered representations. Second, inter image difference tokens (<Diff>) explicitly encode temporal changes between studies, allowing the model to distinguish worsening, improvement, and stability in disease burden. Finally, a dedicated explainability stage trains the model to generate heatmaps that highlight lesion-related regions, offering clear visual evidence that is consistent with the model's reasoning. Through our staged design, MEDIC-AD steadily boosts performance across anomaly detection, symptom tracking, and anomaly segmentation, achieving state-of-the-art results compared with both closed source and medical-specialized baselines. Evaluations on real longitudinal clinical data collected from real hospital workflows further show that MEDIC-AD delivers stable predictions and clinically faithful explanations in practical patient-monitoring and decision-support workflows
- Abstract(参考訳): 病変検出、症状追跡、視覚的説明性は、現実の医療画像分析の中心であるが、現在の医療ビジョンランゲージモデル(VLM)には、その幅広い知識を臨床的に実行可能なアウトプットに変換するメカニズムが欠けている。
このギャップを埋めるために、我々は、ステージワイドフレームワークを通じてこれら3つの機能を強化する臨床指向のVLMであるMEDIC-ADを提示する。
まず, 学習可能な異常認識トークン(<Ano>)は, 異常領域に焦点をあて, より差別的な病変中心の表現を構築することを奨励する。
第2に、画像間の差分トークン(<Diff>)は、研究間の時間的変化を明示的に符号化し、疾患負担の悪化、改善、安定性を識別する。
最後に、専用の説明可能性ステージは、モデルに病変に関連する領域をハイライトするヒートマップを生成するように訓練し、モデルの推論と一致した明確な視覚的証拠を提供する。
MEDIC-ADは段階的設計により, 異常検出, 症状追跡, 異常セグメンテーションにまたがる性能を着実に向上させ, クローズドソースおよび医療特化ベースラインと比較して, 最先端の結果が得られる。
MEDIC-ADが患者モニタリングと意思決定支援のワークフローで安定した予測と臨床的に忠実な説明を提供することを示す実際の病院ワークフローから収集した実時間臨床データの評価
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。
患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文 参考訳(メタデータ) (2026-02-02T13:07:52Z) - MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis [17.59077756990045]
MedEyesは、臨床医スタイルの診断推論を動的にモデル化する強化学習フレームワークである。
二重モード探索法を用いて診断過程をエミュレートし, 組織的異常局所化をスキャンし, 詳細な地域分析を行う。
実験の結果、MedEyesは複数の医療用VQAベンチマークで+8.5%の性能向上を達成した。
論文 参考訳(メタデータ) (2025-11-27T01:47:43Z) - Evaluating the Explainability of Vision Transformers in Medical Imaging [10.88831138993597]
本研究では、異なるビジョントランスフォーマーアーキテクチャと事前学習戦略の説明可能性を評価する。
末梢血細胞分類と乳房超音波画像分類の2つの医療画像の定量的および定性的な解析を行った。
以上の結果から,DINOとGrad-CAMを組み合わせることで,データセット間の最も忠実で局所的な説明が可能になることが示唆された。
論文 参考訳(メタデータ) (2025-10-13T23:53:26Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Expert-Guided Explainable Few-Shot Learning for Medical Image Diagnosis [2.7946918847372277]
本稿では,放射線技師が提案する関心領域をモデルトレーニングに統合する,専門家による説明可能な数ショット学習フレームワークを提案する。
我々は、BraTS(MRI)とVinDr-CXR(Chest X-ray)の2つの異なるデータセット上で、我々のフレームワークを評価する。
本研究は, 少数症例の医用画像診断において, 評価と解釈のギャップを埋めるために, 専門家が指導する注意指導を取り入れることの有効性を実証するものである。
論文 参考訳(メタデータ) (2025-09-08T05:31:37Z) - Distribution-Based Masked Medical Vision-Language Model Using Structured Reports [9.306835492101413]
医用画像テキスト事前訓練は,医療用画像と臨床関連テキストの整合を図り,様々な下流作業におけるモデル性能を向上させることを目的としている。
本研究は,医用画像解析における一般化能力を高める不確実性を考慮した医用画像テキスト事前学習モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T13:31:24Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。