論文の概要: A vector quantized masked autoencoder for audiovisual speech emotion recognition
- arxiv url: http://arxiv.org/abs/2305.03568v2
- Date: Wed, 15 May 2024 13:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 18:41:34.606433
- Title: A vector quantized masked autoencoder for audiovisual speech emotion recognition
- Title(参考訳): ベクトル量子化マスマスキングオートエンコーダによる音声視覚音声の感情認識
- Authors: Samir Sadok, Simon Leglaive, Renaud Séguier,
- Abstract要約: 本稿では,ベクトル量子化マスク付きオートエンコーダ(MAE)であるVQ-MAE-AVモデルを提案する。
音声と視覚のモダリティを融合させ,音声視覚音声系列の局所的およびグローバルな表現を学習するために,自己・横断的機構を持つマルチモーダルMAEを提案する。
実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整され,最先端の音声視覚音声SER法よりも優れていた。
- 参考スコア(独自算出の注目度): 5.8641712963450825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The limited availability of labeled data is a major challenge in audiovisual speech emotion recognition (SER). Self-supervised learning approaches have recently been proposed to mitigate the need for labeled data in various applications. This paper proposes the VQ-MAE-AV model, a vector quantized masked autoencoder (MAE) designed for audiovisual speech self-supervised representation learning and applied to SER. Unlike previous approaches, the proposed method employs a self-supervised paradigm based on discrete audio and visual speech representations learned by vector quantized variational autoencoders. A multimodal MAE with self- or cross-attention mechanisms is proposed to fuse the audio and visual speech modalities and to learn local and global representations of the audiovisual speech sequence, which are then used for an SER downstream task. Experimental results show that the proposed approach, which is pre-trained on the VoxCeleb2 database and fine-tuned on standard emotional audiovisual speech datasets, outperforms the state-of-the-art audiovisual SER methods. Extensive ablation experiments are also provided to assess the contribution of the different model components.
- Abstract(参考訳): ラベル付きデータの限られた利用は、音声視覚音声感情認識(SER)において大きな課題である。
近年,ラベル付きデータの必要性を軽減するための自己教師付き学習手法が提案されている。
本稿では,VQ-MAE-AVモデルを提案する。
従来の手法とは異なり、提案手法はベクトル量子化変分オートエンコーダによって学習された離散音声および視覚音声の表現に基づく自己監督パラダイムを用いる。
音声と視覚のモダリティを融合させ、SERダウンストリームタスクに使用される音声視覚音声シーケンスの局所的およびグローバルな表現を学習するために、自己あるいは横断的なメカニズムを持つマルチモーダルMAEを提案する。
実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整され,最先端の音声視覚音声SER法よりも優れていた。
異なるモデルコンポーネントの寄与を評価するために、広範囲なアブレーション実験も提供される。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - A multimodal dynamical variational autoencoder for audiovisual speech
representation learning [23.748108659645844]
MDVAE (Multimodal and dynamical VAE) は、教師なし音声・視覚的音声表現学習に適用される。
実験には、音声視覚音声の操作、音声視覚の表情の認知、音声視覚の感情認識などが含まれる。
論文 参考訳(メタデータ) (2023-05-05T14:37:26Z) - A vector quantized masked autoencoder for speech emotion recognition [3.985839436158186]
本稿では,音声信号から感情を認識するための自己教師型モデルVQ-MAE-Sを提案する。
実験結果から,VoxCeleb2データセット上で事前学習したVQ-MAE-Sモデルが,生のスペクトル表現に係わるMAEより優れていることが示された。
論文 参考訳(メタデータ) (2023-04-21T16:37:57Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。