論文の概要: Audio-visual speech enhancement with a deep Kalman filter generative
model
- arxiv url: http://arxiv.org/abs/2211.00988v1
- Date: Wed, 2 Nov 2022 09:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:12:10.905591
- Title: Audio-visual speech enhancement with a deep Kalman filter generative
model
- Title(参考訳): ディープカルマンフィルタ生成モデルによる音声・視覚音声強調
- Authors: Ali Golmakani (MULTISPEECH), Mostafa Sadeghi (MULTISPEECH), Romain
Serizel (MULTISPEECH)
- Abstract要約: 本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep latent variable generative models based on variational autoencoder (VAE)
have shown promising performance for audiovisual speech enhancement (AVSE). The
underlying idea is to learn a VAEbased audiovisual prior distribution for clean
speech data, and then combine it with a statistical noise model to recover a
speech signal from a noisy audio recording and video (lip images) of the target
speaker. Existing generative models developed for AVSE do not take into account
the sequential nature of speech data, which prevents them from fully
incorporating the power of visual data. In this paper, we present an
audiovisual deep Kalman filter (AV-DKF) generative model which assumes a
first-order Markov chain model for the latent variables and effectively fuses
audiovisual data. Moreover, we develop an efficient inference methodology to
estimate speech signals at test time. We conduct a set of experiments to
compare different variants of generative models for speech enhancement. The
results demonstrate the superiority of the AV-DKF model compared with both its
audio-only version and the non-sequential audio-only and audiovisual VAE-based
models.
- Abstract(参考訳): 変分オートエンコーダ(VAE)に基づく潜時可変生成モデルでは,オーディオ視覚音声強調(AVSE)に有望な性能を示した。
基本となるアイデアは、クリーンな音声データのためのvaeベースのオーディオビジュアルの事前分布を学習し、それを統計ノイズモデルと組み合わせて、ターゲットスピーカーのノイズの多い音声記録とビデオ(リップ画像)から音声信号を復元する。
avseのために開発された既存の生成モデルは、音声データの逐次的性質を考慮していないため、視覚データのパワーを完全に組み込むことができない。
本稿では,潜在変数に対する一階マルコフ連鎖モデルを仮定し,音響視覚データを効果的に融合する音声視覚深部カルマンフィルタ(av-dkf)生成モデルを提案する。
さらに,テスト時に音声信号を推定する効率的な推論手法を開発した。
音声強調のための生成モデルの異なる変種を比較するための一連の実験を行う。
その結果,AV-DKFモデルは,オーディオのみのバージョンと,非逐次オーディオのみモデルとVAEベースモデルの両方と比較して優れていた。
関連論文リスト
- AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised
Features for Audio-Visual Speech Enhancement [20.447323647632913]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。
我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。
実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文 参考訳(メタデータ) (2023-06-02T10:43:42Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Unsupervised Speech Enhancement using Dynamical Variational
Auto-Encoders [29.796695365217893]
動的変分自動エンコーダ(Dynamical Variational Auto-Encoders, DVAE)は、潜伏変数を持つ深部生成モデルのクラスである。
DVAEの最も一般的な形式に基づく教師なし音声強調アルゴリズムを提案する。
音声強調を行うための変分予測最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-23T09:48:38Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。