論文の概要: Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing
- arxiv url: http://arxiv.org/abs/2301.04558v1
- Date: Wed, 11 Jan 2023 16:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:01:02.747635
- Title: Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing
- Title(参考訳): バイオメディカルビジョンランゲージ処理のための時間構造抽出学習
- Authors: Shruthi Bannur, Stephanie Hyland, Qianchu Liu, Fernando Perez-Garcia,
Maximilian Ilse, Daniel C. Castro, Benedikt Boecking, Harshita Sharma, Kenza
Bouzid, Anja Thieme, Anton Schwaighofer, Maria Wetscherek, Matthew P.
Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay
- Abstract要約: 視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
- 参考スコア(独自算出の注目度): 53.89917396428747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning in vision-language processing exploits semantic
alignment between imaging and text modalities. Prior work in biomedical VLP has
mostly relied on the alignment of single image and report pairs even though
clinical notes commonly refer to prior images. This does not only introduce
poor alignment between the modalities but also a missed opportunity to exploit
rich self-supervision through existing temporal content in the data. In this
work, we explicitly account for prior images and reports when available during
both training and fine-tuning. Our approach, named BioViL-T, uses a
CNN-Transformer hybrid multi-image encoder trained jointly with a text model.
It is designed to be versatile to arising challenges such as pose variations
and missing input images across time. The resulting model excels on downstream
tasks both in single- and multi-image setups, achieving state-of-the-art
performance on (I) progression classification, (II) phrase grounding, and (III)
report generation, whilst offering consistent improvements on disease
classification and sentence-similarity tasks. We release a novel multi-modal
temporal benchmark dataset, MS-CXR-T, to quantify the quality of
vision-language representations in terms of temporal semantics. Our
experimental results show the advantages of incorporating prior images and
reports to make most use of the data.
- Abstract(参考訳): 視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
バイオメディカルvlpの先行研究は主に単一の画像とレポートペアのアライメントに依存しているが、臨床記録は一般的に先行画像を参照している。
これは、モダリティ間の不一致をもたらすだけでなく、データ内の既存の時間的コンテンツを通してリッチな自己スーパービジョンを利用する機会を逃す。
本研究では,トレーニングと微調整の両方において,事前のイメージとレポートを明示的に説明する。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
ポーズのバリエーションや入力画像の欠如といった課題に対して、多用途に設計されている。
結果として得られたモデルは、シングルイメージとマルチイメージの両方で下流タスクに優れ、(I)進行分類、(II)フレーズグラウンド、(III)レポート生成における最先端のパフォーマンスを達成するとともに、疾患分類と文相似タスクを一貫して改善する。
我々は,視覚言語表現の質を時間意味論的に定量化するために,新しいマルチモーダル時相ベンチマークデータセットms-cxr-tをリリースする。
実験結果から,先行画像とレポートを組み込むことによるデータ利用の利点が示された。
関連論文リスト
- MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models [0.9324036842528547]
本稿では,VLSMの2次元医用画像への変換学習に関する最初のベンチマーク研究について述べる。
以上の結果から,VLSMは自然画像とテキストのペアで訓練され,ゼロショット設定で医療領域に合理的に移行することが示唆された。
しかし、微調整中の言語プロンプトのさらなる利点は限られているかもしれない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Unified Medical Image-Text-Label Contrastive Learning With Continuous
Prompt [3.218449686637963]
本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。
我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
論文 参考訳(メタデータ) (2023-07-12T05:19:10Z) - Multiscale Progressive Text Prompt Network for Medical Image
Segmentation [10.121625177837931]
本稿では,先行知識としてプログレッシブテキストプロンプトを用いてセグメンテーションプロセスを導くことを提案する。
このモデルでは,データアノテーションのコストを低くして高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-06-30T23:37:16Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。