論文の概要: VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset
- arxiv url: http://arxiv.org/abs/2304.08345v1
- Date: Mon, 17 Apr 2023 15:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:40:39.891095
- Title: VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset
- Title(参考訳): VALOR:ビジョン・オーディ・ランゲージ・オムニ知覚事前学習モデルとデータセット
- Authors: Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang,
Jinhui Tang, Jing Liu
- Abstract要約: マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
- 参考スコア(独自算出の注目度): 53.46019570679092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a Vision-Audio-Language Omni-peRception pretraining
model (VALOR) for multi-modal understanding and generation. Different from
widely-studied vision-language pretraining models, VALOR jointly models
relationships of vision, audio and language in an end-to-end manner. It
contains three separate encoders for single modality representations, and a
decoder for multimodal conditional text generation. We design two pretext tasks
to pretrain VALOR model, including Multimodal Grouping Alignment (MGA) and
Multimodal Grouping Captioning (MGC). MGA projects vision, language and audio
to the same common space, building vision-language, audio-language and
audiovisual-language alignment simultaneously. MGC learns how to generate text
tokens in conditions of vision, audio or their both. To promote
vision-audio-language pretraining research, we construct a large-scale
high-quality tri-modality dataset named VALOR-1M, which contains 1M audiable
videos with human annotated audiovisual captions. Extensive experiments show
that VALOR can learn strong multimodal correlations and be generalized to
various downstream tasks (e.g., retrieval, captioning and question answering),
with different input modalities (e.g., vision-language, audio-language and
audiovisual-language). VALOR achieves new state-of-the-art performances on
series of public cross-modality benchmarks. Code and data are available at
project page https://casia-iva-group.github.io/projects/VALOR.
- Abstract(参考訳): 本稿では,マルチモーダル理解と生成のための視覚聴覚言語全知覚前訓練モデル(valor)を提案する。
広く研究されている視覚言語事前学習モデルとは異なり、valorは視覚、音声、言語の関係をエンドツーエンドでモデリングしている。
単一のモダリティ表現のための3つの別個のエンコーダと、マルチモーダル条件テキスト生成のためのデコーダを含んでいる。
MGA(Multimodal Grouping Alignment)やMGC(Multimodal Grouping Captioning)など,VALORモデルを事前訓練するための2つのプレテキストタスクを設計する。
MGAは視覚、言語、音声を同じ共通空間に投影し、視覚言語、オーディオ言語、オーディオ視覚言語を同時に構築する。
MGCは、視覚、音声、またはその両方でテキストトークンを生成する方法を学ぶ。
視覚聴覚言語前学習研究を促進するために,valor-1mという,人間の注釈付音声視覚キャプションを含む1mの音声映像を含む大規模高品質な3モーダリティデータセットを構築した。
広範な実験により、ヴァロールは強いマルチモーダル相関を学び、様々な下流タスク(例えば、検索、キャプション、質問応答)に一般化し、異なる入力モダリティ(例えば、視覚言語、音声言語、音声視覚言語)を持つことが示された。
VALORは、一連の公開モダリティベンチマークで最先端のパフォーマンスを達成する。
コードとデータはプロジェクトページhttps://casia-iva-group.github.io/projects/valorで入手できる。
関連論文リスト
- Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文 参考訳(メタデータ) (2023-05-21T01:25:44Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset [14.619865864254924]
Open Large-scale Korean Audio-Visual Speech (OLKAVS)データセットは、一般に公開されている音声視覚音声データセットの中で最大である。
データセットには、韓国語話者1,107人による1,150時間の音声書き起こしが含まれており、9つの異なる視点と様々なノイズ状況がある。
論文 参考訳(メタデータ) (2023-01-16T11:40:50Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。