論文の概要: UNIMO: Towards Unified-Modal Understanding and Generation via
Cross-Modal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2012.15409v1
- Date: Thu, 31 Dec 2020 02:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:17:56.791913
- Title: UNIMO: Towards Unified-Modal Understanding and Generation via
Cross-Modal Contrastive Learning
- Title(参考訳): UNIMO:クロスモーダルコントラスト学習による統一モーダル理解と生成を目指して
- Authors: Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu, Jiachen Liu, Hua
Wu, Haifeng Wang
- Abstract要約: 単一モーダルとマルチモーダルの両方の理解と生成タスクに適応できる統一モーダルプリトレーニングアーキテクチャ、すなわちUNIMOを提案します。
非ペア化シングルモーダルデータは非常に豊富であるため、我々のモデルは、より一般化可能な表現を学ぶために、より大規模なデータを利用することができます。
- 参考スコア(独自算出の注目度): 28.89401350391015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existed pre-training methods either focus on single-modal tasks or
multi-modal tasks, and cannot effectively adapt to each other. They can only
utilize single-modal data (i.e. text or image) or limited multi-modal data
(i.e. image-text pairs). In this work, we propose a unified-modal pre-training
architecture, namely UNIMO, which can effectively adapt to both single-modal
and multi-modal understanding and generation tasks. Large scale of free text
corpus and image collections can be utilized to improve the capability of
visual and textual understanding, and cross-modal contrastive learning (CMCL)
is leveraged to align the textual and visual information into a unified
semantic space over a corpus of image-text pairs. As the non-paired
single-modal data is very rich, our model can utilize much larger scale of data
to learn more generalizable representations. Moreover, the textual knowledge
and visual knowledge can enhance each other in the unified semantic space. The
experimental results show that UNIMO significantly improves the performance of
several single-modal and multi-modal downstream tasks.
- Abstract(参考訳): 既存の事前学習方法は、シングルモーダルタスクまたはマルチモーダルタスクにフォーカスしており、互いに効果的に適応できない。
単一のモーダルデータ(すなわち)しか利用できない。
テキストまたは画像)または制限されたマルチモーダルデータ(すなわち)
image-text pairs)。
本稿では,単一モーダルおよびマルチモーダル理解と生成タスクの両方に効果的に対応可能な統一モーダル事前学習アーキテクチャ,unimoを提案する。
大規模な自由テキストコーパスと画像収集は、視覚的およびテキスト的理解の能力を向上させるために利用でき、クロスモーダルコントラスト学習(CMCL)を利用して、テキストと視覚情報を、画像とテキストのペアのコーパス上の統一意味空間に整合させる。
非ペアリングシングルモーダルデータは非常にリッチであるため、我々のモデルはより大規模なデータを利用してより一般化可能な表現を学習することができる。
さらに、テキスト知識と視覚知識は、統一意味空間において相互に強化することができる。
実験の結果,unimoは複数のシングルモーダルおよびマルチモーダルダウンストリームタスクの性能を大幅に向上させた。
関連論文リスト
- Everything is a Video: Unifying Modalities through Next-Frame Prediction [5.720266474212221]
自然言語処理(NLP)を超えて,タスク再構成の概念を多モーダル学習に拡張する新しいフレームワークを提案する。
本稿では,多様なマルチモーダルタスクを統一した次フレーム予測問題に再構成することを提案する。
提案手法は,テキスト・トゥ・テキスト,画像・トゥ・テキスト,ビデオ・トゥ・ビデオ,ビデオ・トゥ・テキスト,音声・トゥ・テキストなど,様々なタスクで評価される。
論文 参考訳(メタデータ) (2024-11-15T12:59:37Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - UNIMO-2: End-to-End Unified Vision-Language Grounded Learning [46.914284894632]
本稿では, エンドツーエンドの統一モーダル事前学習フレームワーク, UNIMO-2を提案する。
我々は、画像とテキスト間の視覚表現、テキスト表現、意味的アライメントを共同で学習する統合トランスフォーマーモデルを構築した。
コードとモデルは、UNIMOプロジェクトページで公開されています。
論文 参考訳(メタデータ) (2022-03-17T03:53:11Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。