論文の概要: Enhancing Biomedical Multi-modal Representation Learning with Multi-scale Pre-training and Perturbed Report Discrimination
- arxiv url: http://arxiv.org/abs/2506.01902v1
- Date: Mon, 02 Jun 2025 17:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.631545
- Title: Enhancing Biomedical Multi-modal Representation Learning with Multi-scale Pre-training and Perturbed Report Discrimination
- Title(参考訳): マルチスケール事前学習と障害レポート識別によるバイオメディカルマルチモーダル表現学習の強化
- Authors: Xinliu Zhong, Kayhan Batmanghelich, Li Sun,
- Abstract要約: 大規模にラベル付けされていないバイオメディカルイメージで事前訓練された視覚言語モデルは、一般化可能な意味表現を学ぶ。
本稿では,事前学習型バイオメディカルビジョン言語モデルのための新しい手法,摂動レポート識別法を提案する。
- 参考スコア(独自算出の注目度): 13.654729300824227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models pre-trained on large scale of unlabeled biomedical images and associated reports learn generalizable semantic representations. These multi-modal representations can benefit various downstream tasks in the biomedical domain. Contrastive learning is widely used to pre-train vision-language models for general natural images and associated captions. Despite its popularity, we found biomedical texts have complex and domain-specific semantics that are often neglected by common contrastive methods. To address this issue, we propose a novel method, perturbed report discrimination, for pre-train biomedical vision-language models. First, we curate a set of text perturbation methods that keep the same words, but disrupt the semantic structure of the sentence. Next, we apply different types of perturbation to reports, and use the model to distinguish the original report from the perturbed ones given the associated image. Parallel to this, we enhance the sensitivity of our method to higher level of granularity for both modalities by contrasting attention-weighted image sub-regions and sub-words in the image-text pairs. We conduct extensive experiments on multiple downstream tasks, and our method outperforms strong baseline methods. The results demonstrate that our approach learns more semantic meaningful and robust multi-modal representations.
- Abstract(参考訳): 大規模にラベル付けされていない生体画像と関連するレポートで事前訓練された視覚言語モデルは、一般化可能な意味表現を学習する。
これらのマルチモーダル表現は、生体医学領域における様々な下流タスクの恩恵を受けることができる。
コントラスト学習は、一般的な自然画像と関連するキャプションの視覚言語モデルの事前学習に広く用いられている。
その人気にもかかわらず、生物医学的なテキストは複雑でドメイン固有の意味論を持ち、一般的なコントラスト的手法によって無視されることが多い。
この問題に対処するため,本研究では,事前学習型バイオメディカルビジョン言語モデルのための,摂動型レポート識別手法を提案する。
まず、同じ単語を保持するが、文の意味構造を乱す一連のテキスト摂動法をキュレートする。
次に、異なる種類の摂動をレポートに適用し、そのモデルを用いて、関連する画像から元のレポートを識別する。
これと並行して、画像テキストペア内の注目強調画像サブリージョンとサブワードを対比することにより、この手法の感度を両モードの粒度の高いレベルに向上させる。
我々は複数の下流タスクについて広範囲に実験を行い、この手法は強力なベースライン法より優れています。
その結果,本手法はより意味的かつ堅牢なマルチモーダル表現を学習できることが示唆された。
関連論文リスト
- Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models [9.76070837929117]
既存のアライメント手法は、微粒な病理属性の分離よりも病気のクラス間の分離を優先する。
本稿では,マルチモーダル三重項学習による画像テキストアライメントを向上させる新しい手法であるMedTrimを提案する。
我々の実証では,MedTrimは,最先端のアライメント手法と比較して,下流検索および分類タスクの性能を向上させることが示されている。
論文 参考訳(メタデータ) (2025-04-22T14:17:51Z) - BiomedJourney: Counterfactual Biomedical Image Generation by
Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。
我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。
得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-10-16T18:59:31Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。
テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-21T00:04:35Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。