論文の概要: Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing
- arxiv url: http://arxiv.org/abs/2301.04558v1
- Date: Wed, 11 Jan 2023 16:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:01:02.747635
- Title: Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing
- Title(参考訳): バイオメディカルビジョンランゲージ処理のための時間構造抽出学習
- Authors: Shruthi Bannur, Stephanie Hyland, Qianchu Liu, Fernando Perez-Garcia,
Maximilian Ilse, Daniel C. Castro, Benedikt Boecking, Harshita Sharma, Kenza
Bouzid, Anja Thieme, Anton Schwaighofer, Maria Wetscherek, Matthew P.
Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay
- Abstract要約: 視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
- 参考スコア(独自算出の注目度): 53.89917396428747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning in vision-language processing exploits semantic
alignment between imaging and text modalities. Prior work in biomedical VLP has
mostly relied on the alignment of single image and report pairs even though
clinical notes commonly refer to prior images. This does not only introduce
poor alignment between the modalities but also a missed opportunity to exploit
rich self-supervision through existing temporal content in the data. In this
work, we explicitly account for prior images and reports when available during
both training and fine-tuning. Our approach, named BioViL-T, uses a
CNN-Transformer hybrid multi-image encoder trained jointly with a text model.
It is designed to be versatile to arising challenges such as pose variations
and missing input images across time. The resulting model excels on downstream
tasks both in single- and multi-image setups, achieving state-of-the-art
performance on (I) progression classification, (II) phrase grounding, and (III)
report generation, whilst offering consistent improvements on disease
classification and sentence-similarity tasks. We release a novel multi-modal
temporal benchmark dataset, MS-CXR-T, to quantify the quality of
vision-language representations in terms of temporal semantics. Our
experimental results show the advantages of incorporating prior images and
reports to make most use of the data.
- Abstract(参考訳): 視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
バイオメディカルvlpの先行研究は主に単一の画像とレポートペアのアライメントに依存しているが、臨床記録は一般的に先行画像を参照している。
これは、モダリティ間の不一致をもたらすだけでなく、データ内の既存の時間的コンテンツを通してリッチな自己スーパービジョンを利用する機会を逃す。
本研究では,トレーニングと微調整の両方において,事前のイメージとレポートを明示的に説明する。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
ポーズのバリエーションや入力画像の欠如といった課題に対して、多用途に設計されている。
結果として得られたモデルは、シングルイメージとマルチイメージの両方で下流タスクに優れ、(I)進行分類、(II)フレーズグラウンド、(III)レポート生成における最先端のパフォーマンスを達成するとともに、疾患分類と文相似タスクを一貫して改善する。
我々は,視覚言語表現の質を時間意味論的に定量化するために,新しいマルチモーダル時相ベンチマークデータセットms-cxr-tをリリースする。
実験結果から,先行画像とレポートを組み込むことによるデータ利用の利点が示された。
関連論文リスト
- PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Unified Medical Image-Text-Label Contrastive Learning With Continuous
Prompt [3.218449686637963]
本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。
我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
論文 参考訳(メタデータ) (2023-07-12T05:19:10Z) - Multiscale Progressive Text Prompt Network for Medical Image
Segmentation [10.121625177837931]
本稿では,先行知識としてプログレッシブテキストプロンプトを用いてセグメンテーションプロセスを導くことを提案する。
このモデルでは,データアノテーションのコストを低くして高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-06-30T23:37:16Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。