論文の概要: Masked Vision and Language Modeling for Multi-modal Representation
Learning
- arxiv url: http://arxiv.org/abs/2208.02131v1
- Date: Wed, 3 Aug 2022 15:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:03:16.238598
- Title: Masked Vision and Language Modeling for Multi-modal Representation
Learning
- Title(参考訳): マルチモーダル表現学習のためのマスクドビジョンと言語モデリング
- Authors: Gukyeong Kwon, Zhaowei Cai, Avinash Ravichandran, Erhan Bas, Rahul
Bhotika, Stefano Soatto
- Abstract要約: 視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
我々は,あるモダリティのマスク信号が他のモダリティの助けを借りて再構成される,共同マスク型視覚と言語モデリングを構築することを提案する。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 62.15254888833132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study how to use masked signal modeling in vision and
language (V+L) representation learning. Instead of developing masked language
modeling (MLM) and masked image modeling (MIM) independently, we propose to
build joint masked vision and language modeling, where the masked signal of one
modality is reconstructed with the help from another modality. This is
motivated by the nature of image-text paired data that both of the image and
the text convey almost the same information but in different formats. The
masked signal reconstruction of one modality conditioned on another modality
can also implicitly learn cross-modal alignment between language tokens and
image patches. Our experiments on various V+L tasks show that the proposed
method not only achieves state-of-the-art performances by using a large amount
of data, but also outperforms the other competitors by a significant margin in
the regimes of limited training data.
- Abstract(参考訳): 本稿では,視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
マスク言語モデリング(mlm)とマスク画像モデリング(mim)を独立に開発する代わりに、あるモダリティのマスク信号が他のモダリティの助けを借りて再構成されるような統合マスク視覚と言語モデリングを構築することを提案する。
これは、画像とテキストの両方がほぼ同じ情報を異なるフォーマットで伝達する、画像とテキストのペアデータの性質によって動機付けられている。
他のモダリティを条件としたあるモダリティのマスキング信号再構成は、言語トークンとイメージパッチ間のクロスモダリティアライメントを暗黙的に学習することもできる。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を達成するだけでなく,限られた訓練データ体制において,他の競争相手よりも優れていた。
関連論文リスト
- Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language
Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。
本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。
本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-09T06:31:15Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。