論文の概要: A vector quantized masked autoencoder for audiovisual speech emotion
recognition
- arxiv url: http://arxiv.org/abs/2305.03568v1
- Date: Fri, 5 May 2023 14:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 13:44:04.882984
- Title: A vector quantized masked autoencoder for audiovisual speech emotion
recognition
- Title(参考訳): ベクトル量子化マスマスキングオートエンコーダによる音声視覚音声の感情認識
- Authors: Samir Sadok, Simon Leglaive, Renaud S\'eguier
- Abstract要約: 本稿では,VQ-MAE-AVモデルを提案する。
生音声音声データの処理に依存する既存のマルチモーダルMAEとは違って,提案手法では,離散的音声および視覚的音声表現に基づく自己監督パラダイムを採用している。
実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整され,最先端の音声視覚音声SER法よりも優れていた。
- 参考スコア(独自算出の注目度): 3.985839436158186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While fully-supervised models have been shown to be effective for audiovisual
speech emotion recognition (SER), the limited availability of labeled data
remains a major challenge in the field. To address this issue, self-supervised
learning approaches, such as masked autoencoders (MAEs), have gained popularity
as potential solutions. In this paper, we propose the VQ-MAE-AV model, a vector
quantized MAE specifically designed for audiovisual speech self-supervised
representation learning. Unlike existing multimodal MAEs that rely on the
processing of the raw audiovisual speech data, the proposed method employs a
self-supervised paradigm based on discrete audio and visual speech
representations learned by two pre-trained vector quantized variational
autoencoders. Experimental results show that the proposed approach, which is
pre-trained on the VoxCeleb2 database and fine-tuned on standard emotional
audiovisual speech datasets, outperforms the state-of-the-art audiovisual SER
methods.
- Abstract(参考訳): 完全な教師付きモデルが音声視覚音声感情認識(ser)に有効であることが示されているが、ラベル付きデータの可用性の制限はこの分野において依然として大きな課題である。
この問題に対処するために、マスク付きオートエンコーダ(maes)のような自己教師付き学習アプローチが潜在的なソリューションとして人気を集めている。
本稿では,音声の自己教師付き表現学習のためのベクトル量子化maeであるvq-mae-avモデルを提案する。
既存のマルチモーダルmaesとは異なり、提案手法では2つの事前学習されたベクトル量子化変分オートエンコーダによって学習された離散音声と視覚音声表現に基づく自己教師付きパラダイムを用いる。
実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整されている。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - A multimodal dynamical variational autoencoder for audiovisual speech
representation learning [23.748108659645844]
MDVAE (Multimodal and dynamical VAE) は、教師なし音声・視覚的音声表現学習に適用される。
実験には、音声視覚音声の操作、音声視覚の表情の認知、音声視覚の感情認識などが含まれる。
論文 参考訳(メタデータ) (2023-05-05T14:37:26Z) - A vector quantized masked autoencoder for speech emotion recognition [3.985839436158186]
本稿では,音声信号から感情を認識するための自己教師型モデルVQ-MAE-Sを提案する。
実験結果から,VoxCeleb2データセット上で事前学習したVQ-MAE-Sモデルが,生のスペクトル表現に係わるMAEより優れていることが示された。
論文 参考訳(メタデータ) (2023-04-21T16:37:57Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。