論文の概要: UNIMO-2: End-to-End Unified Vision-Language Grounded Learning
- arxiv url: http://arxiv.org/abs/2203.09067v1
- Date: Thu, 17 Mar 2022 03:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 13:00:57.924309
- Title: UNIMO-2: End-to-End Unified Vision-Language Grounded Learning
- Title(参考訳): unimo-2: エンドツーエンドの視覚言語統合学習
- Authors: Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu, Jiachen Liu, Hua
Wu, Haifeng Wang
- Abstract要約: 本稿では, エンドツーエンドの統一モーダル事前学習フレームワーク, UNIMO-2を提案する。
我々は、画像とテキスト間の視覚表現、テキスト表現、意味的アライメントを共同で学習する統合トランスフォーマーモデルを構築した。
コードとモデルは、UNIMOプロジェクトページで公開されています。
- 参考スコア(独自算出の注目度): 46.914284894632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Pre-training (VLP) has achieved impressive performance on
various cross-modal downstream tasks. However, most existing methods can only
learn from aligned image-caption data and rely heavily on expensive regional
features, which greatly limits their scalability and performance. In this
paper, we propose an end-to-end unified-modal pre-training framework, namely
UNIMO-2, for joint learning on both aligned image-caption data and unaligned
image-only and text-only corpus. We build a unified Transformer model to
jointly learn visual representations, textual representations and semantic
alignment between images and texts. In particular, we propose to conduct
grounded learning on both images and texts via a sharing grounded space, which
helps bridge unaligned images and texts, and align the visual and textual
semantic spaces on different types of corpora. The experiments show that our
grounded learning method can improve textual and visual semantic alignment for
improving performance on various cross-modal tasks. Moreover, benefiting from
effective joint modeling of different types of corpora, our model also achieves
impressive performance on single-modal visual and textual tasks. Our code and
models are public at the UNIMO project page https://unimo-ptm.github.io/.
- Abstract(参考訳): vision-language pre-training (vlp)は様々なクロスモーダルダウンストリームタスクで印象的なパフォーマンスを達成している。
しかし、既存の手法のほとんどは画像キャプチャデータからのみ学習することができ、高価な地域機能に大きく依存しているため、スケーラビリティとパフォーマンスが大幅に制限されている。
本稿では,画像キャプチャデータと非アライメント画像のみとテキストのみのコーパスを共同で学習するための,エンドツーエンドの統一モーダル事前学習フレームワークunimo-2を提案する。
我々は,視覚表現,テキスト表現,画像とテキスト間の意味的アライメントを共同で学習する統一トランスフォーマーモデルを構築した。
特に,画像とテキストの接地学習を,共有接地空間を通じて行うことを提案する。これは不整合画像とテキストをブリッジし,視覚的およびテキスト的意味空間を異なるタイプのコーパスに整列させる。
実験の結果,本手法はテキストと視覚のセマンティックアライメントを向上し,多種多様なモーダルタスクの性能向上を図っている。
さらに,様々なコーパスの効果的な共同モデリングの利点を活かし,単一モーダルの視覚的およびテキスト的タスクにおいて印象的なパフォーマンスを実現する。
コードとモデルはunimoプロジェクトページhttps://unimo-ptm.github.io/で公開されている。
関連論文リスト
- Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation [5.064384692591668]
本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。
メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。
CUBとMS-COCOの2つの公開データセットに対する実験結果は、優れた視覚的およびテキスト的表現アライメントを示す。
論文 参考訳(メタデータ) (2021-09-04T22:48:46Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Visual Grounding Strategies for Text-Only Natural Language Processing [1.2183405753834562]
BERTのマルチモーダル拡張は、視覚的質問回答などのマルチモーダルタスクに最先端の結果をもたらすテキストと画像の共同モデリングを可能にします。
本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスクにマルチモーダルモデリングを利用する。
転送グラウンドと呼ばれる最初のタイプの戦略は、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。
2つ目は「連想的接地」と呼ばれ、画像検索を利用してテキストと関連画像のマッチングを行う。
論文 参考訳(メタデータ) (2021-03-25T16:03:00Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。