論文の概要: Closing the gap in multimodal medical representation alignment
- arxiv url: http://arxiv.org/abs/2602.20046v1
- Date: Mon, 23 Feb 2026 16:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.911815
- Title: Closing the gap in multimodal medical representation alignment
- Title(参考訳): マルチモーダル・メディカル・アライメントのギャップを埋める
- Authors: Eleonora Grassucci, Giordano Cicchetti, Danilo Comminiello,
- Abstract要約: マルチモーダル学習において、CLIPは様々なモダリティを共有潜在空間にマッピングするためのデファクトアプローチとして登場した。
しかし、CLIPに基づく対照的な損失は、真の意味的アライメントに悪影響を及ぼす意図しない振る舞いを示す。
我々は,このギャップを埋めるモダリティに依存しないフレームワークを提案し,意味論的に関連する表現がより整合していることを保証する。
- 参考スコア(独自算出の注目度): 15.387737375519286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multimodal learning, CLIP has emerged as the de-facto approach for mapping different modalities into a shared latent space by bringing semantically similar representations closer while pushing apart dissimilar ones. However, CLIP-based contrastive losses exhibit unintended behaviors that negatively impact true semantic alignment, leading to sparse and fragmented latent spaces. This phenomenon, known as the modality gap, has been partially mitigated for standard text and image pairs but remains unknown and unresolved in more complex multimodal settings, such as the medical domain. In this work, we study this phenomenon in the latter case, revealing that the modality gap is present also in medical alignment, and we propose a modality-agnostic framework that closes this gap, ensuring that semantically related representations are more aligned, regardless of their source modality. Our method enhances alignment between radiology images and clinical text, improving cross-modal retrieval and image captioning.
- Abstract(参考訳): マルチモーダル学習において、CLIPは異なるモダリティを共通の潜在空間にマッピングするデファクトアプローチとして登場し、意味論的に類似した表現を近くに持ち込み、異種を分割する。
しかし、CLIPに基づく対照的な損失は、真の意味的アライメントに悪影響を及ぼす意図しない振る舞いを示し、スパースと断片化された潜在空間をもたらす。
この現象は、モダリティギャップ(Modality gap)として知られ、標準的なテキストとイメージペアに対して部分的に緩和されているが、医療領域のようなより複雑なマルチモーダル環境では未解決のままである。
本研究は, 後者の場合において, モダリティギャップが医学的アライメントにおいても存在することを明らかにするとともに, このギャップを埋めるモダリティ非依存の枠組みを提案し, ソースモダリティに関係なく, 意味論的に関連付けられた表現がより整合していることを保証する。
本手法は,放射線画像と臨床テキストとの整合性を高め,画像キャプションの相互検索と画像キャプションを改善する。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Robust Semi-supervised Multimodal Medical Image Segmentation via Cross Modality Collaboration [21.97457095780378]
本稿では,ラベル付きデータの不足やモダリティの不一致に頑健な,新しい半教師付きマルチモーダルセグメンテーションフレームワークを提案する。
本フレームワークでは,各モダリティに固有の,モダリティに依存しない知識を蒸留する,新たなモダリティ協調戦略を採用している。
また、対照的な一貫した学習を統合して解剖学的構造を規制し、ラベルのないデータに対する解剖学的予測アライメントを容易にする。
論文 参考訳(メタデータ) (2024-08-14T07:34:12Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Enhancing medical vision-language contrastive learning via inter-matching relation modelling [13.94586574102162]
医用視覚言語コントラスト学習(mVLCL)による医用画像表現の学習
最近のmVLCL法は、画像サブリージョンとレポートキーワードを局所マッチングとして整列しようとする。
本稿では,Relation-enhanced contrastive learning framework(RECLF)を用いた局所マッチング間のマッチング関係をモデル化するmVLCL法を提案する。
論文 参考訳(メタデータ) (2024-01-19T05:28:51Z) - Margin Preserving Self-paced Contrastive Learning Towards Domain
Adaptation for Medical Image Segmentation [51.93711960601973]
クロスモーダル医療画像セグメンテーションのための自己ペースコントラスト学習モデルを保存する新しいマージンを提案する。
プログレッシブに洗練されたセマンティックプロトタイプの指導により、埋め込み表現空間の識別性を高めるために、コントラスト損失を減少させる新しいマージンが提案される。
クロスモーダル心セグメンテーションタスクの実験は、MPSCLが意味セグメンテーション性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-03-15T15:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。