論文の概要: VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2211.11275v2
- Date: Fri, 19 May 2023 10:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 19:33:26.703285
- Title: VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning
- Title(参考訳): vatlm:音声表現学習のための統一マスク予測を用いた視覚音声テキスト事前学習
- Authors: Qiushi Zhu, Long Zhou, Ziqiang Zhang, Shujie Liu, Binxing Jiao, Jie
Zhang, Lirong Dai, Daxin Jiang, Jinyu Li, Furu Wei
- Abstract要約: VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
- 参考スコア(独自算出の注目度): 119.49605266839053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although speech is a simple and effective way for humans to communicate with
the outside world, a more realistic speech interaction contains multimodal
information, e.g., vision, text. How to design a unified framework to integrate
different modal information and leverage different resources (e.g.,
visual-audio pairs, audio-text pairs, unlabeled speech, and unlabeled text) to
facilitate speech representation learning was not well explored. In this paper,
we propose a unified cross-modal representation learning framework VATLM
(Visual-Audio-Text Language Model). The proposed VATLM employs a unified
backbone network to model the modality-independent information and utilizes
three simple modality-dependent modules to preprocess visual, speech, and text
inputs. In order to integrate these three modalities into one shared semantic
space, VATLM is optimized with a masked prediction task of unified tokens,
given by our proposed unified tokenizer. We evaluate the pre-trained VATLM on
audio-visual related downstream tasks, including audio-visual speech
recognition (AVSR), visual speech recognition (VSR) tasks. Results show that
the proposed VATLM outperforms previous the state-of-the-art models, such as
audio-visual pre-trained AV-HuBERT model, and analysis also demonstrates that
VATLM is capable of aligning different modalities into the same space. To
facilitate future research, we release the code and pre-trained models at
https://aka.ms/vatlm.
- Abstract(参考訳): 音声は、人間が外界とコミュニケーションをとるためのシンプルで効果的な方法であるが、より現実的な音声対話には、例えば視覚、テキストといったマルチモーダル情報が含まれる。
異なるモーダル情報を統合し、異なるリソース(例えば、視覚-聴覚ペア、音声-テキストペア、ラベルなし音声、ラベルなしテキスト)を活用して、音声表現学習を容易にする統一フレームワークを設計する方法は、十分に検討されなかった。
本稿では,統合型クロスモーダル表現学習フレームワークvatlm(visual-audio-text language model)を提案する。
提案するvatlmは、モダリティ非依存情報をモデル化するために統一バックボーンネットワークを使用し、視覚、音声、テキスト入力の前処理に3つの単純なモダリティ依存モジュールを使用する。
これら3つのモダリティを1つの共有意味空間に統合するために、VATLMは、提案した統一トークン化器によって与えられるマスク付き予測タスクで最適化される。
本稿では,音声-視覚的音声認識(AVSR),視覚的音声認識(VSR)タスクなど,音声-視覚関連下流タスクに対する事前学習VATLMの評価を行った。
以上の結果から,VATLMはAV-HuBERTモデルのような従来の最先端モデルよりも優れており,VATLMが異なるモダリティを同一空間に整列できることが示唆された。
将来の研究を容易にするため、コードと事前訓練済みのモデルをhttps://aka.ms/vatlm.comでリリースします。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素テキストのペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - LMs with a Voice: Spoken Language Modeling beyond Speech Tokens [21.904742779710062]
SPECTRONは、事前訓練された言語モデル(LM)を用いて音声継続を行うための新しいアプローチである。
事前学習した音声エンコーダを利用することで、本モデルはテキストと音声の両方の出力を生成し、システム全体がスペクトル上で直接操作するエンドツーエンドの訓練を行う。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。