Fugu-MT 論文翻訳(概要): A vector quantized masked autoencoder for audiovisual speech emotion recognition

論文の概要: A vector quantized masked autoencoder for audiovisual speech emotion recognition

arxiv url: http://arxiv.org/abs/2305.03568v1
Date: Fri, 5 May 2023 14:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-08 13:44:04.882984
Title: A vector quantized masked autoencoder for audiovisual speech emotion recognition
Title（参考訳）: ベクトル量子化マスマスキングオートエンコーダによる音声視覚音声の感情認識
Authors: Samir Sadok, Simon Leglaive, Renaud S\'eguier
Abstract要約: 本稿では,VQ-MAE-AVモデルを提案する。生音声音声データの処理に依存する既存のマルチモーダルMAEとは違って,提案手法では,離散的音声および視覚的音声表現に基づく自己監督パラダイムを採用している。実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整され,最先端の音声視覚音声SER法よりも優れていた。
参考スコア（独自算出の注目度）: 3.985839436158186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While fully-supervised models have been shown to be effective for audiovisual speech emotion recognition (SER), the limited availability of labeled data remains a major challenge in the field. To address this issue, self-supervised learning approaches, such as masked autoencoders (MAEs), have gained popularity as potential solutions. In this paper, we propose the VQ-MAE-AV model, a vector quantized MAE specifically designed for audiovisual speech self-supervised representation learning. Unlike existing multimodal MAEs that rely on the processing of the raw audiovisual speech data, the proposed method employs a self-supervised paradigm based on discrete audio and visual speech representations learned by two pre-trained vector quantized variational autoencoders. Experimental results show that the proposed approach, which is pre-trained on the VoxCeleb2 database and fine-tuned on standard emotional audiovisual speech datasets, outperforms the state-of-the-art audiovisual SER methods.
Abstract（参考訳）: 完全な教師付きモデルが音声視覚音声感情認識(ser)に有効であることが示されているが、ラベル付きデータの可用性の制限はこの分野において依然として大きな課題である。この問題に対処するために、マスク付きオートエンコーダ(maes)のような自己教師付き学習アプローチが潜在的なソリューションとして人気を集めている。本稿では,音声の自己教師付き表現学習のためのベクトル量子化maeであるvq-mae-avモデルを提案する。既存のマルチモーダルmaesとは異なり、提案手法では2つの事前学習されたベクトル量子化変分オートエンコーダによって学習された離散音声と視覚音声表現に基づく自己教師付きパラダイムを用いる。実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整されている。

関連論文リスト

CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文参考訳（メタデータ） (2024-10-18T14:43:34Z)
Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2024-09-19T00:08:28Z)
EnCodecMAE: Leveraging neural codecs for universal audio representation learning [16.590638305972632]
我々は、音声信号のマスキング表現を提案し、マスクされたセグメントを再構築するためにMAEを訓練する。本研究では,EnCodecMAEと呼ぶこのアプローチを,音声,音楽,環境音を含む幅広いタスクで評価する。
論文参考訳（メタデータ） (2023-09-14T02:21:53Z)
A multimodal dynamical variational autoencoder for audiovisual speech representation learning [23.748108659645844]
MDVAE (Multimodal and dynamical VAE) は、教師なし音声・視覚的音声表現学習に適用される。実験には、音声視覚音声の操作、音声視覚の表情の認知、音声視覚の感情認識などが含まれる。
論文参考訳（メタデータ） (2023-05-05T14:37:26Z)
A vector quantized masked autoencoder for speech emotion recognition [3.985839436158186]
本稿では,音声信号から感情を認識するための自己教師型モデルVQ-MAE-Sを提案する。実験結果から,VoxCeleb2データセット上で事前学習したVQ-MAE-Sモデルが,生のスペクトル表現に係わるMAEより優れていることが示された。
論文参考訳（メタデータ） (2023-04-21T16:37:57Z)
Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文参考訳（メタデータ） (2022-12-09T17:34:53Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)
Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder) 我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文参考訳（メタデータ） (2022-10-02T07:29:57Z)
Self-supervised Learning with Random-projection Quantizer for Speech Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文参考訳（メタデータ） (2022-02-03T21:29:04Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文参考訳（メタデータ） (2021-02-15T15:18:59Z)
Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文参考訳（メタデータ） (2020-08-17T10:12:33Z)
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文参考訳（メタデータ） (2020-07-08T14:07:06Z)
Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文参考訳（メタデータ） (2020-01-13T18:56:45Z)
Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文参考訳（メタデータ） (2020-01-13T14:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。