論文の概要: MVP: Multi-Stage Vision-Language Pre-Training via Multi-Level Semantic
Alignment
- arxiv url: http://arxiv.org/abs/2201.12596v1
- Date: Sat, 29 Jan 2022 14:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:40:15.705910
- Title: MVP: Multi-Stage Vision-Language Pre-Training via Multi-Level Semantic
Alignment
- Title(参考訳): mvp:マルチレベルセマンティクスアライメントによる多段階視覚言語事前学習
- Authors: Zejun Li, Zhihao Fan, Huaixiao Tou, Zhongyu Wei
- Abstract要約: 言語と視覚のための2段階の意味表現を構築するために,両モードの概念を導入する。
我々は、一様学習と多様学習という2つの段階において、相互モダリティモデルを訓練する。
我々のモデルは、いくつかのビジョンと言語タスクに関する最先端の結果を生成する。
- 参考スコア(独自算出の注目度): 24.720485548282845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a Multi-stage Vision-language Pre-training (MVP)
framework to learn cross-modality representation via multi-level semantic
alignment. We introduce concepts in both modalities to construct two-level
semantic representations for language and vision. Based on the multi-level
input, we train the cross-modality model in two stages, namely, uni-modal
learning and cross-modal learning. The former stage enforces within-modality
interactions to learn multi-level semantics for each single modality. The
latter stage enforces interactions across modalities via both coarse-grain and
fine-grain semantic alignment tasks. Image-text matching and masked language
modeling are then used to further optimize the pre-training model. Our model
generates the-state-of-the-art results on several vision and language tasks.
- Abstract(参考訳): 本稿では,多段階のセマンティックアライメントを用いた多段階視覚言語事前学習(MVP)フレームワークを提案する。
言語と視覚のための2段階の意味表現を構築するために,両モードの概念を導入する。
マルチレベル入力に基づいて,クロスモダリティモデルを2段階,すなわちユニモダリティ学習とクロスモダリティ学習で学習する。
前者はモダリティ内相互作用を強制し、各モダリティの多レベルセマンティクスを学ぶ。
後者の段階は、粗粒と細粒のセマンティクスアライメントのタスクを通じて、モダリティ間のインタラクションを強制する。
画像テキストマッチングとマスキング言語モデリングは、事前学習モデルのさらなる最適化に使用される。
我々のモデルは、いくつかのビジョンと言語タスクに関する最先端の結果を生成する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language
Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。
本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。
本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-09T06:31:15Z) - Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal
Pre-training [21.017471684853987]
言語間およびモーダル間の事前学習を統一する,シンプルで効果的な事前学習フレームワークであるクロスビュー言語モデリングを導入する。
我々のアプローチは、言語横断とモーダル横断の事前学習が、同じオブジェクトの2つの異なるビューを共通の意味空間に整合させることで同じ目標を共有するという重要な観察によって動機付けられている。
CLMは、ゼロショットのクロスランガル転送により、代表的英語ビジョン言語モデルの翻訳テスト性能を上回る最初のマルチランガル・マルチモーダル事前訓練モデルである。
論文 参考訳(メタデータ) (2022-06-01T16:45:24Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。