論文の概要: i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data
- arxiv url: http://arxiv.org/abs/2305.12311v1
- Date: Sun, 21 May 2023 01:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 21:21:04.154269
- Title: i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data
- Title(参考訳): i-Code V2: 視覚、言語、音声データに対する自動回帰生成フレームワーク
- Authors: Ziyi Yang, Mahmoud Khademi, Yichong Xu, Reid Pryzant, Yuwei Fang,
Chenguang Zhu, Dongdong Chen, Yao Qian, Mei Gao, Yi-Ling Chen, Robert Gmyr,
Naoyuki Kanda, Noel Codella, Bin Xiao, Yu Shi, Lu Yuan, Takuya Yoshioka,
Michael Zeng, Xuedong Huang
- Abstract要約: i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
- 参考スコア(独自算出の注目度): 101.52821120195975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The convergence of text, visual, and audio data is a key step towards
human-like artificial intelligence, however the current Vision-Language-Speech
landscape is dominated by encoder-only models which lack generative abilities.
We propose closing this gap with i-Code V2, the first model capable of
generating natural language from any combination of Vision, Language, and
Speech data. i-Code V2 is an integrative system that leverages state-of-the-art
single-modality encoders, combining their outputs with a new modality-fusing
encoder in order to flexibly project combinations of modalities into a shared
representational space. Next, language tokens are generated from these
representations via an autoregressive decoder. The whole framework is
pretrained end-to-end on a large collection of dual- and single-modality
datasets using a novel text completion objective that can be generalized across
arbitrary combinations of modalities. i-Code V2 matches or outperforms
state-of-the-art single- and dual-modality baselines on 7 multimodal tasks,
demonstrating the power of generative multimodal pretraining across a diversity
of tasks and signals.
- Abstract(参考訳): テキスト、ビジュアル、オーディオデータの収束は、人間のような人工知能への重要なステップであるが、現在のビジョン・ランゲージ・スペーチの風景は、生成能力に欠けるエンコーダのみのモデルに支配されている。
視覚・言語・音声データの組み合わせから自然言語を生成できる最初のモデルであるi-code v2でこのギャップを埋めることを提案する。
i-Code V2は最先端の単一モダリティエンコーダを活用し、その出力を新しいモダリティハウジングエンコーダと組み合わせることで、モダリティの組み合わせを柔軟に表現空間に投影する統合システムである。
次に、自動回帰デコーダを介してこれらの表現から言語トークンを生成する。
フレームワーク全体は、任意のモダリティの組み合わせにまたがって一般化可能な、新しいテキスト補完目標を用いて、二重および単一モダリティデータセットの大規模なコレクション上で、エンドツーエンドにトレーニングされている。
i-Code V2は、7つのマルチモーダルタスクに対して、最先端のシングルモーダルベースラインとデュアルモーダルベースラインとを一致または性能良くし、タスクと信号の多様性にまたがる生成的マルチモーダルプリトレーニングのパワーを示す。
関連論文リスト
- VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。