論文の概要: MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval
- arxiv url: http://arxiv.org/abs/2602.16019v1
- Date: Tue, 17 Feb 2026 21:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.440492
- Title: MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval
- Title(参考訳): MedProbCLIP:信頼性の高いラジオグラフィーレポート検索のためのビジョン言語基礎モデルの確率的適応
- Authors: Ahmad Elallaf, Yu Zhang, Yuktha Priya Masupalli, Jeong Yang, Young Lee, Zechun Cao, Gongbo Liang,
- Abstract要約: MedProbCLIPは胸部X線および放射線学報告表現学習と双方向検索のための確率論的視覚言語学習フレームワークである。
このフレームワークは、トレーニング中にマルチビュー・ラジオグラフィエンコーディングとマルチセクション・レポートエンコーディングを使用して、臨床に整合した対応のためのきめ細かい監督を提供する。
これはCLIP、CXR-CLIP、PCME++などの決定論的および確率的ベースラインを、検索とゼロショットの両方で上回る。
- 参考スコア(独自算出の注目度): 3.7054279251399507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language foundation models have emerged as powerful general-purpose representation learners with strong potential for multimodal understanding, but their deterministic embeddings often fail to provide the reliability required for high-stakes biomedical applications. This work introduces MedProbCLIP, a probabilistic vision-language learning framework for chest X-ray and radiology report representation learning and bidirectional retrieval. MedProbCLIP models image and text representations as Gaussian embeddings through a probabilistic contrastive objective that explicitly captures uncertainty and many-to-many correspondences between radiographs and clinical narratives. A variational information bottleneck mitigates overconfident predictions, while MedProbCLIP employs multi-view radiograph encoding and multi-section report encoding during training to provide fine-grained supervision for clinically aligned correspondence, yet requires only a single radiograph and a single report at inference. Evaluated on the MIMIC-CXR dataset, MedProbCLIP outperforms deterministic and probabilistic baselines, including CLIP, CXR-CLIP, and PCME++, in both retrieval and zero-shot classification. Beyond accuracy, MedProbCLIP demonstrates superior calibration, risk-coverage behavior, selective retrieval reliability, and robustness to clinically relevant corruptions, underscoring the value of probabilistic vision-language modeling for improving the trustworthiness and safety of radiology image-text retrieval systems.
- Abstract(参考訳): 視覚言語基礎モデルは多モーダル理解に強い可能性を持つ強力な汎用表現学習者として現れてきたが、その決定論的埋め込みは、高用量バイオメディカルアプリケーションに必要な信頼性を提供するのに失敗することが多い。
MedProbCLIPは胸部X線および放射線学報告表現学習と双方向検索のための確率論的視覚言語学習フレームワークである。
MedProbCLIPは、画像とテキストの表現をガウスの埋め込みとしてモデル化する。
MedProbCLIPは、トレーニング中にマルチビュー・ラジオグラフエンコーディングとマルチセクション・レポートエンコーディングを使用して、臨床に整合した対応のためのきめ細かい監督を提供するが、推測時に1つのラジオグラフと1つのレポートのみを必要とする。
MIMIC-CXRデータセットに基づいて評価すると、MedProbCLIPはCLIP、CXR-CLIP、PCME++などの決定論的および確率的ベースラインを検索とゼロショットの両方で上回る。
精度を超えて、MedProbCLIPは、キャリブレーション、リスクカバレッジの振る舞い、選択的検索信頼性、臨床的に関係のある汚職に対する堅牢性を示し、放射線画像テキスト検索システムの信頼性と安全性を向上させるための確率的視覚言語モデリングの価値を強調している。
関連論文リスト
- Uncertainty-Aware Vision-Language Segmentation for Medical Imaging [12.545486211087791]
医療診断のための新しい不確実性を考慮したマルチモーダルセグメンテーションフレームワークを提案する。
本稿では,高効率なクロスモーダル融合を実現するために,軽量なステートスペースミキサ(SSMix)を備えたModality Decoding Attention Block (MoDAB)を提案する。
本研究は,視覚言語医学的セグメンテーションタスクにおいて,不確実性モデリングと構造化モダリティアライメントを取り入れることの重要性を強調した。
論文 参考訳(メタデータ) (2026-02-16T06:27:51Z) - Multi-task Cross-modal Learning for Chest X-ray Image Retrieval [1.8648093673053043]
医用検索タスクにCLIPとBiomedCLIPを微調整するマルチタスク学習フレームワークを提案する。
微調整モデルにより,画像・テキスト・画像検索とテキスト・画像検索の双方において,よりバランスよく,臨床的に有意な性能が得られることを示す。
これらの知見は, バイオメディカル応用におけるクロスモーダル検索の進歩に, ドメイン適応型マルチタスク学習の意義を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-08T21:44:00Z) - Exploring the Capabilities of LLM Encoders for Image-Text Retrieval in Chest X-rays [8.019362739504087]
視覚言語による事前訓練は画像とテキストのアライメントが進んでいるが、臨床報告の不均一性によって放射線学の進歩が制限されている。
我々は,大規模言語モデル (LLM) エンコーダが,多様なスタイルにまたがる堅牢な臨床表現を提供できるかどうかを問う。
胸部X線レポート用のドメイン適応エンコーダLLM2VEC4CXRと、このエンコーダとビジョンバックボーンを結合するデュアルトウワーフレームワークLLM2CLIP4CXRを紹介する。
論文 参考訳(メタデータ) (2025-09-17T09:44:59Z) - Prototype-Enhanced Confidence Modeling for Cross-Modal Medical Image-Report Retrieval [9.238186292926573]
イメージ・ツー・レポーティングやレポート・ツー・イメージ検索といったクロスモーダル検索タスクは,医療データに固有の曖昧さと変動性のために不可欠だが困難である。
既存のモデルは、ラジオロジーデータにおけるニュアンスで多段階のセマンティックな関係を捉えるのに苦労することが多く、信頼性の低い検索結果をもたらす。
本稿では,各モータリティの多段階プロトタイプを導入し,セマンティック・バリアビリティを向上し,検索ロバスト性を向上するPrototype-Enhanced Confidence Modelingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:26:41Z) - On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI [4.866086225040713]
本稿では,モデルが二項分類タスクにおける各モータリティに依存することを定量化するための摂動に基づくアプローチを提案する。
画像やテキストを反対のラベルと交換することで、モダリティ固有のバイアスを露呈する。
論文 参考訳(メタデータ) (2025-07-31T21:35:52Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。