論文の概要: Multi-task Cross-modal Learning for Chest X-ray Image Retrieval
- arxiv url: http://arxiv.org/abs/2601.05399v1
- Date: Thu, 08 Jan 2026 21:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.782
- Title: Multi-task Cross-modal Learning for Chest X-ray Image Retrieval
- Title(参考訳): 胸部X線画像検索のためのマルチタスククロスモーダル学習
- Authors: Zhaohui Liang, Sivaramakrishnan Rajaraman, Niccolo Marini, Zhiyun Xue, Sameer Antani,
- Abstract要約: 医用検索タスクにCLIPとBiomedCLIPを微調整するマルチタスク学習フレームワークを提案する。
微調整モデルにより,画像・テキスト・画像検索とテキスト・画像検索の双方において,よりバランスよく,臨床的に有意な性能が得られることを示す。
これらの知見は, バイオメディカル応用におけるクロスモーダル検索の進歩に, ドメイン適応型マルチタスク学習の意義を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 1.8648093673053043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP and BiomedCLIP are examples of vision-language foundation models and offer strong cross-modal embeddings; however, they are not optimized for fine-grained medical retrieval tasks, such as retrieving clinically relevant radiology reports using chest X-ray (CXR) image queries. To address this shortcoming, we propose a multi-task learning framework to fine-tune BiomedCLIP and evaluate improvements to CXR image-text retrieval. Using BiomedCLIP as the backbone, we incorporate a lightweight MLP projector head trained with a multi-task composite loss function that includes: (1) a binary cross-entropy loss to distinguish normal from abnormal CXR studies, (2) a supervised contrastive loss to reinforce intra-class consistency, and (3) a CLIP loss to maintain cross-modal alignment. Experimental results demonstrate that the fine-tuned model achieves more balanced and clinically meaningful performance across both image-to-text and text-to-image retrieval tasks compared to the pretrained BiomedCLIP and general-purpose CLIP models. Furthermore, t-SNE visualizations reveal clearer semantic clustering of normal and abnormal cases, demonstrating the model's enhanced diagnostic sensitivity. These findings highlight the value of domain-adaptive, multi-task learning for advancing cross-modal retrieval in biomedical applications.
- Abstract(参考訳): CLIPとBiomedCLIPは、視覚言語基盤モデルの例であり、強力なクロスモーダル埋め込みを提供するが、胸部X線画像クエリを用いた臨床関連放射線学レポートの検索など、詳細な医学的検索には最適化されていない。
この欠点に対処するために,BiomedCLIPを微調整し,CXR画像テキスト検索の改善を評価するマルチタスク学習フレームワークを提案する。
背骨としてBiomedCLIPを用いて,(1)異常CXR研究と正常を区別する2次クロスエントロピー損失,(2)クラス内一貫性を強化するための教師付きコントラスト損失,(3)クロスモーダルアライメントを維持するためのCLIP損失を含む,マルチタスク複合損失関数を訓練した軽量MLPプロジェクタヘッドを組み込んだ。
実験結果から, この微調整モデルは, 事前訓練されたBiomedCLIPモデルや汎用CLIPモデルと比較して, 画像・テキスト・テキスト・画像検索とテキスト・画像検索の双方において, よりバランスよく, 臨床的に有意義な性能を達成できることが示された。
さらに、t-SNE視覚化により、正常および異常な症例のより明確なセマンティッククラスタリングが明らかになり、モデルの診断感度が向上することが示された。
これらの知見は, バイオメディカル応用におけるクロスモーダル検索の進歩に, ドメイン適応型マルチタスク学習の意義を浮き彫りにしている。
関連論文リスト
- Multi-Level CLS Token Fusion for Contrastive Learning in Endoscopy Image Classification [2.5995006632251516]
ENT内視鏡画像解析に適した統合視覚言語フレームワークを提案する。
同時に、画像分類、画像から画像への検索、テキストから画像への検索の3つの臨床的タスクに取り組む。
95%の精度とF1スコア,画像画像検索用Recall@1,画像画像検索用0.93,テキスト画像検索用0.92,MRRスコア0.97,0.96。
論文 参考訳(メタデータ) (2025-08-31T09:03:39Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Benchmarking Robustness of Contrastive Learning Models for Medical Image-Report Retrieval [2.9801426627439453]
本研究では,CLIP,CXR-RePaiR,MedCLIP,CXR-CLIPの4つの最先端コントラスト学習モデルの堅牢性を評価する。
以上の結果から,全ての評価モデルは分布外データに非常に敏感であることが判明した。
これらの制限に対処することにより、医療応用のためのより信頼性の高いクロスドメイン検索モデルを構築することができる。
論文 参考訳(メタデータ) (2025-01-15T20:37:04Z) - Cross-model Mutual Learning for Exemplar-based Medical Image Segmentation [25.874281336821685]
Exemplar-based Medical Image(CMEMS)のためのクロスモデル相互学習フレームワーク
外来医用画像のためのクロスモデル相互学習フレームワーク(CMEMS)について紹介する。
論文 参考訳(メタデータ) (2024-04-18T00:18:07Z) - Improving Medical Multi-modal Contrastive Learning with Expert Annotations [8.06905122449317]
eCLIPはCLIPモデルの強化版であり、放射線学者の眼球熱マップの形で専門家アノテーションを統合する。
対照的なマルチモーダル医療画像解析における重要な課題、特にデータ不足と「モダリティギャップ」に対処する。
論文 参考訳(メタデータ) (2024-03-15T09:54:04Z) - Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval [3.5314225883644945]
クロスモーダル・メディカル・リポート検索は臨床診断や様々な医療生成タスクにおいて重要な役割を担っている。
本稿では,マスク付きデータを両タスクの唯一の入力として利用するMasked Contrastive and Reconstruction (MCR) という効率的なフレームワークを提案する。
これにより、タスク接続が強化され、情報の干渉や競合が軽減されると同時に、必要なGPUメモリとトレーニング時間を大幅に短縮する。
論文 参考訳(メタデータ) (2023-12-26T01:14:10Z) - MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep
Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。
MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。
肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文 参考訳(メタデータ) (2023-10-03T12:19:19Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。