論文の概要: Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2403.00249v1
- Date: Fri, 1 Mar 2024 03:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:26:03.997108
- Title: Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training
- Title(参考訳): 視覚言語事前学習のためのセマンティクス強調クロスモーダルマスク画像モデリング
- Authors: Haowei Liu, Yaya Shi, Haiyang Xu, Chunfeng Yuan, Qinghao Ye, Chenliang
Li, Ming Yan, Ji Zhang, Fei Huang, Bing Li, Weiming Hu
- Abstract要約: Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
- 参考スコア(独自算出の注目度): 87.69394953339238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In vision-language pre-training (VLP), masked image modeling (MIM) has
recently been introduced for fine-grained cross-modal alignment. However, in
most existing methods, the reconstruction targets for MIM lack high-level
semantics, and text is not sufficiently involved in masked modeling. These two
drawbacks limit the effect of MIM in facilitating cross-modal semantic
alignment. In this work, we propose a semantics-enhanced cross-modal MIM
framework (SemMIM) for vision-language representation learning. Specifically,
to provide more semantically meaningful supervision for MIM, we propose a local
semantics enhancing approach, which harvest high-level semantics from global
image features via self-supervised agreement learning and transfer them to
local patch encodings by sharing the encoding space. Moreover, to achieve deep
involvement of text during the entire MIM process, we propose a text-guided
masking strategy and devise an efficient way of injecting textual information
in both masked modeling and reconstruction target acquisition. Experimental
results validate that our method improves the effectiveness of the MIM task in
facilitating cross-modal semantic alignment. Compared to previous VLP models
with similar model size and data scale, our SemMIM model achieves
state-of-the-art or competitive performance on multiple downstream
vision-language tasks.
- Abstract(参考訳): 視覚言語事前学習(VLP)において、マスク付き画像モデリング(MIM)が最近導入されている。
しかし、ほとんどの既存の手法では、mimの再構築対象は高レベルセマンティクスが欠如しており、テキストはマスキングモデリングに十分に関与していない。
これらの2つの欠点は、モーダル間のセマンティックアライメントを促進するMIMの効果を制限する。
本研究では,視覚言語表現学習のためのセマンティックス強化型クロスモーダルMIMフレームワーク(SemMIM)を提案する。
具体的には,mimに対してより意味的に意味のある監督を提供するために,自己教師付き合意学習を通じてグローバル画像特徴からハイレベルな意味を抽出し,符号化空間を共有して局所パッチエンコーディングに転送する,局所的意味論拡張手法を提案する。
さらに,MIMプロセス全体におけるテキストの深い関与を実現するために,テキスト誘導型マスキング戦略を提案し,マスク付きモデリングと再構築ターゲット獲得の両方においてテキスト情報を効率的に注入する方法を考案した。
実験により,mimタスクの有効性が向上し,クロスモーダルセマンティクスアライメントが容易になることを確認した。
類似したモデルサイズとデータスケールを持つ従来のVLPモデルと比較して、SemMIMモデルは、複数の下流視覚言語タスクで最先端または競合的なパフォーマンスを達成する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - Masked Visual Reconstruction in Language Semantic Space [38.43966132249977]
Masked visual Reconstruction In Language semantic Space (RILS) pre-training frameworkについて述べる。
RILSは、視覚のみの信号を意味的に意味のあるMIM再構成ターゲットとしてパッチ文の確率に変換する。
本手法は,下流の分類,検出,セグメンテーションにおける高度な転送性を示す。
論文 参考訳(メタデータ) (2023-01-17T15:32:59Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language
Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。
本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。
本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-09T06:31:15Z) - Masked Vision and Language Modeling for Multi-modal Representation
Learning [62.15254888833132]
視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
我々は,あるモダリティのマスク信号が他のモダリティの助けを借りて再構成される,共同マスク型視覚と言語モデリングを構築することを提案する。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-08-03T15:11:01Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。