論文の概要: SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple
Levels
- arxiv url: http://arxiv.org/abs/2103.07829v1
- Date: Sun, 14 Mar 2021 02:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:15:39.473532
- Title: SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple
Levels
- Title(参考訳): SemVLP:複数のレベルでセマンティクスをアライメントするビジョン言語前訓練
- Authors: Chenliang Li, Ming Yan, Haiyang Xu, Fuli Luo, Wei Wang, Bin Bi,
Songfang Huang
- Abstract要約: 大規模画像テキストペアによる視覚言語事前学習では,クロスモーダル表現の学習が急速に進展している。
画像とテキストの表現の低レベルと高レベルのセマンティクスを協調的に調整する新しい事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 35.57369098866317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) on large-scale image-text pairs has
recently witnessed rapid progress for learning cross-modal representations.
Existing pre-training methods either directly concatenate image representation
and text representation at a feature level as input to a single-stream
Transformer, or use a two-stream cross-modal Transformer to align the
image-text representation at a high-level semantic space. In real-world
image-text data, we observe that it is easy for some of the image-text pairs to
align simple semantics on both modalities, while others may be related after
higher-level abstraction. Therefore, in this paper, we propose a new
pre-training method SemVLP, which jointly aligns both the low-level and
high-level semantics between image and text representations. The model is
pre-trained iteratively with two prevalent fashions: single-stream pre-training
to align at a fine-grained feature level and two-stream pre-training to align
high-level semantics, by employing a shared Transformer network with a
pluggable cross-modal attention module. An extensive set of experiments have
been conducted on four well-established vision-language understanding tasks to
demonstrate the effectiveness of the proposed SemVLP in aligning cross-modal
representations towards different semantic granularities.
- Abstract(参考訳): 大規模画像テキストペア上での視覚言語事前学習(VLP)は、最近、クロスモーダル表現の学習の急速な進歩を目撃している。
既存の事前学習手法は、単一ストリームトランスフォーマーへの入力として機能レベルで画像表現とテキスト表現を直接結合するか、2ストリームのクロスモーダルトランスフォーマーを使用して、画像テキスト表現を高レベルなセマンティック空間で整列させる。
実世界の画像テキストデータでは、画像とテキストのペアが両方のモダリティに単純なセマンティクスをアライメントするのは容易である。
そこで本稿では,画像とテキスト表現の低レベルと高レベルのセマンティクスを協調的に調整する,新しい事前学習手法SemVLPを提案する。
モデルは2つの一般的な方法で事前訓練される: 単一ストリームの事前訓練 きめ細かい特徴レベルでの調整 および2ストリームの事前訓練 ハイレベルセマンティクスの整合 ; プラグ可能なクロスモーダルアテンションモジュールを備えた共有トランスフォーマーネットワークを利用する。
提案したSemVLPの有効性を実証するために、4つのよく確立された視覚言語理解タスクについて、多岐にわたる実験を行った。
関連論文リスト
- Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。