論文の概要: Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training
- arxiv url: http://arxiv.org/abs/2209.07098v1
- Date: Thu, 15 Sep 2022 07:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:00:23.288041
- Title: Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training
- Title(参考訳): 医学的視覚・言語事前学習のためのマルチモーダルマスクオートエンコーダ
- Authors: Zhihong Chen, Yuhao Du, Jinpeng Hu, Yang Liu, Guanbin Li, Xiang Wan,
Tsung-Hui Chang
- Abstract要約: マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
- 参考スコア(独自算出の注目度): 62.215025958347105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical vision-and-language pre-training provides a feasible solution to
extract effective vision-and-language representations from medical images and
texts. However, few studies have been dedicated to this field to facilitate
medical vision-and-language understanding. In this paper, we propose a
self-supervised learning paradigm with multi-modal masked autoencoders
(M$^3$AE), which learn cross-modal domain knowledge by reconstructing missing
pixels and tokens from randomly masked images and texts. There are three key
designs to make this simple approach work. First, considering the different
information densities of vision and language, we adopt different masking ratios
for the input image and text, where a considerably larger masking ratio is used
for images. Second, we use visual and textual features from different layers to
perform the reconstruction to deal with different levels of abstraction in
visual and language. Third, we develop different designs for vision and
language decoders (i.e., a Transformer for vision and a multi-layer perceptron
for language). To perform a comprehensive evaluation and facilitate further
research, we construct a medical vision-and-language benchmark including three
tasks. Experimental results demonstrate the effectiveness of our approach,
where state-of-the-art results are achieved on all downstream tasks. Besides,
we conduct further analysis to better verify the effectiveness of different
components of our approach and various settings of pre-training. The source
code is available at~\url{https://github.com/zhjohnchan/M3AE}.
- Abstract(参考訳): 医学的視覚・言語事前学習は、医療画像やテキストから効果的な視覚・言語表現を抽出するための実現可能なソリューションを提供する。
しかし、医学的ビジョンと言語理解を促進するために、この分野に献身された研究は少ない。
本稿では,マルチモーダルマスク付きオートエンコーダ(M$^3$AE)を用いた自己教師型学習パラダイムを提案する。
このシンプルなアプローチを機能させるためには、3つの重要な設計がある。
まず、視覚と言語の異なる情報密度を考慮すると、入力画像とテキストに対して異なるマスキング比を採用し、画像に対してかなり大きなマスキング比を用いる。
第二に、異なるレイヤの視覚的特徴とテキスト的特徴を使用して、視覚的および言語における異なるレベルの抽象化に対処する再構築を行います。
第3に、視覚と言語デコーダの異なる設計(つまり、視覚の変換器と言語のための多層パーセプトロン)を開発する。
包括的評価を行い,さらなる研究を促進するために,3つのタスクを含む医用視覚・言語ベンチマークを構築した。
実験結果は,すべてのダウンストリームタスクにおいて最先端の成果が達成される手法の有効性を示す。
さらに,アプローチの異なるコンポーネントの有効性と事前学習のさまざまな設定をよりよく検証するために,さらなる分析を行う。
ソースコードは~\url{https://github.com/zhjohnchan/M3AE}で入手できる。
関連論文リスト
- Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。