論文の概要: Prototype-Enhanced Confidence Modeling for Cross-Modal Medical Image-Report Retrieval
- arxiv url: http://arxiv.org/abs/2508.03494v1
- Date: Tue, 05 Aug 2025 14:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.013439
- Title: Prototype-Enhanced Confidence Modeling for Cross-Modal Medical Image-Report Retrieval
- Title(参考訳): クロスモーダルな医用画像検索のためのプロトタイプ強化信頼度モデリング
- Authors: Shreyank N Gowda, Xiaobo Jin, Christian Wagner,
- Abstract要約: イメージ・ツー・レポーティングやレポート・ツー・イメージ検索といったクロスモーダル検索タスクは,医療データに固有の曖昧さと変動性のために不可欠だが困難である。
既存のモデルは、ラジオロジーデータにおけるニュアンスで多段階のセマンティックな関係を捉えるのに苦労することが多く、信頼性の低い検索結果をもたらす。
本稿では,各モータリティの多段階プロトタイプを導入し,セマンティック・バリアビリティを向上し,検索ロバスト性を向上するPrototype-Enhanced Confidence Modelingフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.238186292926573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In cross-modal retrieval tasks, such as image-to-report and report-to-image retrieval, accurately aligning medical images with relevant text reports is essential but challenging due to the inherent ambiguity and variability in medical data. Existing models often struggle to capture the nuanced, multi-level semantic relationships in radiology data, leading to unreliable retrieval results. To address these issues, we propose the Prototype-Enhanced Confidence Modeling (PECM) framework, which introduces multi-level prototypes for each modality to better capture semantic variability and enhance retrieval robustness. PECM employs a dual-stream confidence estimation that leverages prototype similarity distributions and an adaptive weighting mechanism to control the impact of high-uncertainty data on retrieval rankings. Applied to radiology image-report datasets, our method achieves significant improvements in retrieval precision and consistency, effectively handling data ambiguity and advancing reliability in complex clinical scenarios. We report results on multiple different datasets and tasks including fully supervised and zero-shot retrieval obtaining performance gains of up to 10.17%, establishing in new state-of-the-art.
- Abstract(参考訳): 画像・レポート・レポート・ツー・イメージ検索などのクロスモーダル検索タスクでは、医用画像と関連するテキスト・レポートを正確に整合させることが不可欠であるが、医用データに固有のあいまいさと変動性のために困難である。
既存のモデルは、ラジオロジーデータにおけるニュアンスで多段階のセマンティックな関係を捉えるのに苦労することが多く、信頼性の低い検索結果をもたらす。
これらの課題に対処するため,各モータリティの多段階プロトタイプを導入し,セマンティック・バリアビリティをよりよく把握し,検索の堅牢性を向上するPECM(Prototype-Enhanced Confidence Modeling)フレームワークを提案する。
PECMは、プロトタイプの類似度分布を利用した二流信頼度推定と適応重み付け機構を用いて、高い不確実性データが検索ランキングに与える影響を制御する。
本手法は, 検索精度と整合性, データのあいまいさを効果的に処理し, 複雑な臨床シナリオにおける信頼性を向上する。
完全教師付きおよびゼロショット検索を含む複数の異なるデータセットおよびタスクの結果を報告し、パフォーマンスが最大10.17%向上し、新しい最先端技術を確立した。
関連論文リスト
- Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Benchmarking Robustness of Contrastive Learning Models for Medical Image-Report Retrieval [2.9801426627439453]
本研究では,CLIP,CXR-RePaiR,MedCLIP,CXR-CLIPの4つの最先端コントラスト学習モデルの堅牢性を評価する。
以上の結果から,全ての評価モデルは分布外データに非常に敏感であることが判明した。
これらの制限に対処することにより、医療応用のためのより信頼性の高いクロスドメイン検索モデルを構築することができる。
論文 参考訳(メタデータ) (2025-01-15T20:37:04Z) - Distributional Drift Detection in Medical Imaging with Sketching and Fine-Tuned Transformer [2.7552551107566137]
本稿では,CT-Scan医療画像における分布のドリフトを検出するための,高精度かつ高感度なアプローチを提案する。
我々は,リアルタイム異常検出のための堅牢なベースラインライブラリモデルを開発し,画像の効率的な比較を可能にした。
マンモグラフィーをケーススタディとして,訓練済みのビジョントランスモデルを微調整し,関連する特徴を抽出した。
論文 参考訳(メタデータ) (2024-08-15T23:46:37Z) - MedMNIST-C: Comprehensive benchmark and improved classifier robustness by simulating realistic image corruptions [0.13108652488669734]
神経ネットワークに基づくシステムの臨床実践への統合は、ドメインの一般化と堅牢性に関連する課題によって制限される。
我々は、12のデータセットと9つの画像モダリティをカバーするMedMNIST+コレクションに基づくベンチマークデータセットであるMedMNIST-Cを作成し、オープンソース化した。
論文 参考訳(メタデータ) (2024-06-25T13:20:39Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Adaptive Affinity-Based Generalization For MRI Imaging Segmentation Across Resource-Limited Settings [1.5703963908242198]
本稿では,適応親和性に基づく蒸留とカーネルベースの蒸留をシームレスに組み合わせた,新しい関係に基づく知識フレームワークを提案する。
革新的アプローチを検証するために,我々は公開されている複数ソースのMRIデータについて実験を行った。
論文 参考訳(メタデータ) (2024-04-03T13:35:51Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Improving Robustness and Reliability in Medical Image Classification with Latent-Guided Diffusion and Nested-Ensembles [4.249986624493547]
一度展開すると、医用画像解析法は予期せぬ画像の破損やノイズの摂動に直面することが多い。
LaDiNEは、視覚変換器のロバスト性と拡散に基づく生成モデルを組み合わせた、新しいアンサンブル学習手法である。
結核胸部X線とメラノーマ皮膚がんデータセットの実験により、LaDiNEは幅広い最先端の方法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-24T15:53:07Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Confidence-Guided Radiology Report Generation [24.714303916431078]
本稿では,放射線学レポート作成作業における視覚的不確実性とテキスト的不確実性の両方を定量化する手法を提案する。
実験結果から, モデル不確実性評価と推定のための提案手法が, ラジオロジーレポート生成の信頼性向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-06-21T07:02:12Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。