論文の概要: A multimodal dynamical variational autoencoder for audiovisual speech
representation learning
- arxiv url: http://arxiv.org/abs/2305.03582v3
- Date: Tue, 20 Feb 2024 16:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 21:28:44.459546
- Title: A multimodal dynamical variational autoencoder for audiovisual speech
representation learning
- Title(参考訳): 音声視覚表現学習のためのマルチモーダル動的変分オートエンコーダ
- Authors: Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda,
Renaud S\'eguier
- Abstract要約: MDVAE (Multimodal and dynamical VAE) は、教師なし音声・視覚的音声表現学習に適用される。
実験には、音声視覚音声の操作、音声視覚の表情の認知、音声視覚の感情認識などが含まれる。
- 参考スコア(独自算出の注目度): 23.748108659645844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a multimodal and dynamical VAE (MDVAE) applied to
unsupervised audio-visual speech representation learning. The latent space is
structured to dissociate the latent dynamical factors that are shared between
the modalities from those that are specific to each modality. A static latent
variable is also introduced to encode the information that is constant over
time within an audiovisual speech sequence. The model is trained in an
unsupervised manner on an audiovisual emotional speech dataset, in two stages.
In the first stage, a vector quantized VAE (VQ-VAE) is learned independently
for each modality, without temporal modeling. The second stage consists in
learning the MDVAE model on the intermediate representation of the VQ-VAEs
before quantization. The disentanglement between static versus dynamical and
modality-specific versus modality-common information occurs during this second
training stage. Extensive experiments are conducted to investigate how
audiovisual speech latent factors are encoded in the latent space of MDVAE.
These experiments include manipulating audiovisual speech, audiovisual facial
image denoising, and audiovisual speech emotion recognition. The results show
that MDVAE effectively combines the audio and visual information in its latent
space. They also show that the learned static representation of audiovisual
speech can be used for emotion recognition with few labeled data, and with
better accuracy compared with unimodal baselines and a state-of-the-art
supervised model based on an audiovisual transformer architecture.
- Abstract(参考訳): 本稿では、教師なし音声・視覚的音声表現学習に応用したマルチモーダル・動的VAE(MDVAE)を提案する。
潜在空間は、各モジュラリティに特有のものからモダリティの間で共有される潜在力学因子を解離するために構成される。
静的潜伏変数も導入され、音声視覚音声シーケンス内で時間とともに一定となる情報を符号化する。
このモデルは、視聴覚的感情音声データセット上で教師なしの方法で2段階で訓練される。
第1段階では、ベクトル量子化VAE(VQ-VAE)は時間的モデリングなしで各モードごとに独立に学習される。
第2段階は、量子化前のVQ-VAEの中間表現に関するMDVAEモデルを学習することである。
静的・動的・モダリティ固有・モダリティ共通情報の絡み合いは、この第2の訓練段階で起こる。
mdvaeの潜在空間における視聴覚的音声潜在因子の符号化について,広範な実験を行った。
これらの実験には、視聴覚音声の操作、視聴覚画像の発声、視聴覚音声の感情認識が含まれる。
その結果,MDVAEは潜在空間における音声と視覚情報を効果的に組み合わせていることがわかった。
また、学習したオーディオ視覚音声の静的表現は、ラベル付きデータが少ない感情認識に利用でき、オーディオ視覚トランスフォーマーアーキテクチャに基づく一方向ベースラインや最先端教師付きモデルと比較して精度が良いことを示す。
関連論文リスト
- Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - A vector quantized masked autoencoder for audiovisual speech emotion recognition [5.8641712963450825]
本稿では,ベクトル量子化マスク付きオートエンコーダ(MAE)であるVQ-MAE-AVモデルを提案する。
音声と視覚のモダリティを融合させ,音声視覚音声系列の局所的およびグローバルな表現を学習するために,自己・横断的機構を持つマルチモーダルMAEを提案する。
実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整され,最先端の音声視覚音声SER法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-05T14:19:46Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Where and When: Space-Time Attention for Audio-Visual Explanations [42.093794819606444]
音声と視覚データの相乗的なダイナミクスを空間と時間の両方で明らかにする、新しい時空注目ネットワークを提案する。
本モデルでは,音声・視覚的映像イベントの予測を可能とし,関連する視覚的手がかりがどこに現れるのかをローカライズすることで,その決定を正当化する。
論文 参考訳(メタデータ) (2021-05-04T14:16:55Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。