論文の概要: UFO: A UniFied TransfOrmer for Vision-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2111.10023v1
- Date: Fri, 19 Nov 2021 03:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:03:33.588229
- Title: UFO: A UniFied TransfOrmer for Vision-Language Representation Learning
- Title(参考訳): UFO:視覚言語表現学習のためのUniFied TransfOrmer
- Authors: Jianfeng Wang, Xiaowei Hu, Zhe Gan, Zhengyuan Yang, Xiyang Dai,
Zicheng Liu, Yumao Lu, Lijuan Wang
- Abstract要約: 視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
- 参考スコア(独自算出の注目度): 54.82482779792115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a single UniFied transfOrmer (UFO), which is
capable of processing either unimodal inputs (e.g., image or language) or
multimodal inputs (e.g., the concatenation of the image and the question), for
vision-language (VL) representation learning. Existing approaches typically
design an individual network for each modality and/or a specific fusion network
for multimodal tasks. To simplify the network architecture, we use a single
transformer network and enforce multi-task learning during VL pre-training,
which includes the image-text contrastive loss, image-text matching loss, and
masked language modeling loss based on the bidirectional and the seq2seq
attention mask. The same transformer network is used as the image encoder, the
text encoder, or the fusion network in different pre-training tasks.
Empirically, we observe less conflict among different tasks and achieve new
state of the arts on visual question answering, COCO image captioning
(cross-entropy optimization) and nocaps (in SPICE). On other downstream tasks,
e.g., image-text retrieval, we also achieve competitive performance.
- Abstract(参考訳): 本稿では,視覚言語(vl)表現学習のための一様入力(画像や言語など)または多様入力(画像と質問の結合など)を処理可能な単一統一トランスフォーマ(ufo)を提案する。
既存のアプローチは通常、各モダリティのための個々のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
ネットワークアーキテクチャを単純化するため,VL事前学習において,画像テキストコントラスト損失,画像テキストマッチング損失,マスク付き言語モデリング損失などのマルチタスク学習を双方向およびセック2セックの注意マスクに基づいて実施する。
同じトランスフォーマーネットワークは、イメージエンコーダ、テキストエンコーダ、または異なる事前訓練タスクにおける融合ネットワークとして使用される。
視覚的質問応答,COCO画像キャプション (クロスエントロピー最適化) とnocaps (SPICE) で, 異なるタスク間の対立を減らし, 新たな芸術性を実現する。
他の下流タスク、例えば画像テキスト検索では、競争性能も達成します。
関連論文リスト
- EVE: Efficient Vision-Language Pre-training with Masked Prediction and
Modality-Aware MoE [66.48689706116808]
効率的なビジョン・ランガグ(Efficient Vision-languagE)は、1つの統合された事前訓練タスクによってのみ事前訓練された1つの統合マルチモーダルトランスである。
Eveは、Modality-aware sparse Mixture-of-Expertsと統合された共有トランスフォーマーネットワーク内の視覚と言語をエンコードする。
Eveは、視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-08-23T07:36:30Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。