論文の概要: Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2201.04026v1
- Date: Tue, 11 Jan 2022 16:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 13:53:15.871731
- Title: Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training
- Title(参考訳): Uni-EDEN:マルチグラニュラービジョンランゲージ事前学習によるユニバーサルエンコーダデコーダネットワーク
- Authors: Yehao Li and Jiahao Fan and Yingwei Pan and Ting Yao and Weiyao Lin
and Tao Mei
- Abstract要約: 視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
- 参考スコア(独自算出の注目度): 120.91411454661741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training has been an emerging and fast-developing
research topic, which transfers multi-modal knowledge from rich-resource
pre-training task to limited-resource downstream tasks. Unlike existing works
that predominantly learn a single generic encoder, we present a pre-trainable
Universal Encoder-DEcoder Network (Uni-EDEN) to facilitate both vision-language
perception (e.g., visual question answering) and generation (e.g., image
captioning). Uni-EDEN is a two-stream Transformer based structure, consisting
of three modules: object and sentence encoders that separately learns the
representations of each modality, and sentence decoder that enables both
multi-modal reasoning and sentence generation via inter-modal interaction.
Considering that the linguistic representations of each image can span
different granularities in this hierarchy including, from simple to
comprehensive, individual label, a phrase, and a natural sentence, we pre-train
Uni-EDEN through multi-granular vision-language proxy tasks: Masked Object
Classification (MOC), Masked Region Phrase Generation (MRPG), Image-Sentence
Matching (ISM), and Masked Sentence Generation (MSG). In this way, Uni-EDEN is
endowed with the power of both multi-modal representation extraction and
language modeling. Extensive experiments demonstrate the compelling
generalizability of Uni-EDEN by fine-tuning it to four vision-language
perception and generation downstream tasks.
- Abstract(参考訳): 視覚言語プレトレーニングは、リッチリソースプレトレーニングタスクから限定リソースダウンストリームタスクにマルチモーダル知識を転送する、新興かつ迅速な研究トピックである。
単一のジェネリックエンコーダを主に学習する既存の研究とは異なり、視覚言語認識(例えば、視覚的質問応答)と生成(例えば、画像キャプション)の両方を容易にする訓練済みのユニバーサルエンコーダ・デコーダネットワーク(Uni-EDEN)を提示する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、各モダリティの表現を個別に学習するオブジェクトと文エンコーダと、モーダル間相互作用による多モーダル推論と文生成を可能にする文デコーダの3つのモジュールで構成される。
画像の言語表現は, 単純から包括的, 個々のラベル, フレーズ, 自然文まで, この階層のさまざまな粒度にまたがる可能性があることを考慮し, 多粒度視覚言語プロキシタスク(MOC), マスケ領域フレーズ生成(MRPG), イメージセンテンスマッチング(ISM), マスケ領域生成(MSG)を事前訓練する。
このように、Uni-EDENにはマルチモーダル表現抽出と言語モデリングの両方の能力がある。
広汎な実験は、Uni-EDENを4つの視覚言語知覚と下流タスクに微調整することで、説得力のある一般化性を示す。
関連論文リスト
- Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文 参考訳(メタデータ) (2023-05-21T01:25:44Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for
Understanding and Generation [40.376625939658354]
ERNIE-UniX2は、タスクの生成と理解の両方のための言語間事前トレーニングフレームワークである。
ERNIE-UniX2はエンコーダ-デコーダアーキテクチャに基づく複数の事前学習パラダイムを統合している。
ERNIE-UniX2は、下流タスクの生成と理解のためにシームレスに微調整できる。
論文 参考訳(メタデータ) (2022-11-09T13:06:58Z) - Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.12025963907317]
Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。
我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。
Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
論文 参考訳(メタデータ) (2022-06-17T17:53:47Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。