論文の概要: Enhancing medical vision-language contrastive learning via
inter-matching relation modelling
- arxiv url: http://arxiv.org/abs/2401.10501v1
- Date: Fri, 19 Jan 2024 05:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:57:36.826923
- Title: Enhancing medical vision-language contrastive learning via
inter-matching relation modelling
- Title(参考訳): マッチング関係モデリングによる医用視覚言語コントラスト学習の強化
- Authors: Mingjian Li, Mingyuan Meng, Michael Fulham, David Dagan Feng, Lei Bi,
Jinman Kim
- Abstract要約: 医用視覚言語コントラスト学習(mVLCL)による医用画像表現の学習
最近のmVLCL法は、画像サブリージョンとレポートキーワードを局所マッチングとして整列しようとする。
本稿では,Relation-enhanced contrastive learning framework(RECLF)を用いた局所マッチング間のマッチング関係をモデル化するmVLCL法を提案する。
- 参考スコア(独自算出の注目度): 14.777259981193726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image representations can be learned through medical vision-language
contrastive learning (mVLCL) where medical imaging reports are used as weak
supervision through image-text alignment. These learned image representations
can be transferred to and benefit various downstream medical vision tasks such
as disease classification and segmentation. Recent mVLCL methods attempt to
align image sub-regions and the report keywords as local-matchings. However,
these methods aggregate all local-matchings via simple pooling operations while
ignoring the inherent relations between them. These methods therefore fail to
reason between local-matchings that are semantically related, e.g.,
local-matchings that correspond to the disease word and the location word
(semantic-relations), and also fail to differentiate such clinically important
local-matchings from others that correspond to less meaningful words, e.g.,
conjunction words (importance-relations). Hence, we propose a mVLCL method that
models the inter-matching relations between local-matchings via a
relation-enhanced contrastive learning framework (RECLF). In RECLF, we
introduce a semantic-relation reasoning module (SRM) and an importance-relation
reasoning module (IRM) to enable more fine-grained report supervision for image
representation learning. We evaluated our method using four public benchmark
datasets on four downstream tasks, including segmentation, zero-shot
classification, supervised classification, and cross-modal retrieval. Our
results demonstrated the superiority of our RECLF over the state-of-the-art
mVLCL methods with consistent improvements across single-modal and cross-modal
tasks. These results suggest that our RECLF, by modelling the inter-matching
relations, can learn improved medical image representations with better
generalization capabilities.
- Abstract(参考訳): 医用画像表現は、医用視覚言語コントラスト学習(mvlcl)によって学習でき、医用画像報告は画像テキストアライメントによる弱い監督として使用される。
これらの学習された画像表現は、疾患分類やセグメンテーションなどの下流の医療ビジョンタスクに転送され、利益を得ることができる。
最近のmVLCL法は画像サブリージョンとレポートキーワードを局所マッチングとして整列しようとする。
しかし、これらの手法は単純なプーリング操作を通じて全ての局所マッチングを集約し、それらの関係を無視する。
したがって、これらの方法は、意味的に関連づけられた局所マッチング(例えば、疾患語に対応する局所マッチング)と位置単語(意味関連)の区別に失敗し、また、臨床的に重要な局所マッチングと、より意味の薄い単語、例えば結合語(類似関係)とを区別できない。
そこで我々は,relation-enhanced contrastive learning framework(RECLF)を用いて,局所マッチング間のマッチング関係をモデル化するmVLCL法を提案する。
RECLFでは,画像表現学習のためのより詳細なレポート管理を実現するために,意味関連推論モジュール (SRM) と重要関連推論モジュール (IRM) を導入する。
提案手法は,セグメンテーション,ゼロショット分類,教師付き分類,クロスモーダル検索の4つの下流タスクにおける4つのベンチマークデータセットを用いて評価した。
以上の結果から,従来のmVLCL法よりもRECLFの方が一貫した改善が得られた。
これらの結果から, マッチング関係をモデル化することで, 医用画像表現の改善と一般化能力の向上が期待できることが示唆された。
関連論文リスト
- Cross-model Mutual Learning for Exemplar-based Medical Image Segmentation [25.874281336821685]
Exemplar-based Medical Image(CMEMS)のためのクロスモデル相互学習フレームワーク
外来医用画像のためのクロスモデル相互学習フレームワーク(CMEMS)について紹介する。
論文 参考訳(メタデータ) (2024-04-18T00:18:07Z) - PRIOR: Prototype Representation Joint Learning from Medical Images and
Reports [19.336988866061294]
医用画像とレポートのグローバルなアライメントとローカルなアライメントを組み合わせた表現学習フレームワークを提案する。
標準的なグローバルな多モードアライメント手法とは対照的に、細粒度表現に局所アライメントモジュールを用いる。
低レベルのローカライズされた視覚的および高レベルの臨床言語的特徴に焦点を合わせることができる文量プロトタイプメモリバンクを構築する。
論文 参考訳(メタデータ) (2023-07-24T07:49:01Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - Unsupervised domain adaptation for cross-modality liver segmentation via
joint adversarial learning and self-learning [2.309675169959214]
CT(Computed tomography)とMRI(MRI)を用いて取得した画像上の肝セグメンテーションは,肝疾患の臨床的管理において重要な役割を担っている。
本研究では, 対人学習と自己学習を通じて, クロスモーダル肝セグメンテーションのための新しい教師なしドメイン適応フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-09-13T01:46:28Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。