論文の概要: ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for
Understanding and Generation
- arxiv url: http://arxiv.org/abs/2211.04861v1
- Date: Wed, 9 Nov 2022 13:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:05:03.284456
- Title: ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for
Understanding and Generation
- Title(参考訳): ERNIE-UniX2: 理解と生成のための統一言語間クロスモーダルフレームワーク
- Authors: Bin Shan, Yaqian Han, Weichong Yin, Shuohuan Wang, Yu Sun, Hao Tian,
Hua Wu, Haifeng Wang
- Abstract要約: ERNIE-UniX2は、タスクの生成と理解の両方のための言語間事前トレーニングフレームワークである。
ERNIE-UniX2はエンコーダ-デコーダアーキテクチャに基づく複数の事前学習パラダイムを統合している。
ERNIE-UniX2は、下流タスクの生成と理解のためにシームレスに微調整できる。
- 参考スコア(独自算出の注目度): 40.376625939658354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent cross-lingual cross-modal works attempt to extend Vision-Language
Pre-training (VLP) models to non-English inputs and achieve impressive
performance. However, these models focus only on understanding tasks utilizing
encoder-only architecture. In this paper, we propose ERNIE-UniX2, a unified
cross-lingual cross-modal pre-training framework for both generation and
understanding tasks. ERNIE-UniX2 integrates multiple pre-training paradigms
(e.g., contrastive learning and language modeling) based on encoder-decoder
architecture and attempts to learn a better joint representation across
languages and modalities. Furthermore, ERNIE-UniX2 can be seamlessly fine-tuned
for varieties of generation and understanding downstream tasks. Pre-trained on
both multilingual text-only and image-text datasets, ERNIE-UniX2 achieves SOTA
results on various cross-lingual cross-modal generation and understanding tasks
such as multimodal machine translation and multilingual visual question
answering.
- Abstract(参考訳): 近年の言語間クロスモーダルな研究は、VLP(Vision-Language Pre-Training)モデルを英語以外の入力に拡張し、優れた性能を実現しようとしている。
しかし、これらのモデルはエンコーダのみのアーキテクチャを用いたタスクの理解のみに焦点を当てている。
本稿では,タスクの生成と理解のための言語間クロスモーダル事前学習フレームワークであるERNIE-UniX2を提案する。
ERNIE-UniX2は、エンコーダ・デコーダアーキテクチャに基づく複数の事前学習パラダイム(例えば、コントラスト学習と言語モデリング)を統合し、言語とモダリティをまたいだより良い共同表現を学ぼうとしている。
さらに、ERNIE-UniX2は、下流タスクの生成と理解のためにシームレスに微調整できる。
ERNIE-UniX2は、多言語テキストのみと画像テキストの両方のデータセットに基づいて事前訓練され、多言語間クロスモーダル生成および多言語機械翻訳や多言語視覚質問応答などの理解タスクにおけるSOTA結果を達成する。
関連論文リスト
- TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal
Pre-training [21.017471684853987]
言語間およびモーダル間の事前学習を統一する,シンプルで効果的な事前学習フレームワークであるクロスビュー言語モデリングを導入する。
我々のアプローチは、言語横断とモーダル横断の事前学習が、同じオブジェクトの2つの異なるビューを共通の意味空間に整合させることで同じ目標を共有するという重要な観察によって動機付けられている。
CLMは、ゼロショットのクロスランガル転送により、代表的英語ビジョン言語モデルの翻訳テスト性能を上回る最初のマルチランガル・マルチモーダル事前訓練モデルである。
論文 参考訳(メタデータ) (2022-06-01T16:45:24Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。