Fugu-MT 論文翻訳(概要): AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

論文の概要: AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

arxiv url: http://arxiv.org/abs/2309.08030v1
Date: Thu, 14 Sep 2023 21:07:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 16:46:28.541713
Title: AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement
Title（参考訳）: AV2Wav: 音声音声強調のための連続自己教師機能からの拡散に基づく再合成
Authors: Ju-Chieh Chou, Chung-Ming Chien, Karen Livescu
Abstract要約: AV2Wavは再合成に基づく音声視覚音声強調手法である。我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
参考スコア（独自算出の注目度）: 20.447323647632913
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech enhancement systems are typically trained using pairs of clean and noisy speech. In audio-visual speech enhancement (AVSE), there is not as much ground-truth clean data available; most audio-visual datasets are collected in real-world environments with background noise and reverberation, hampering the development of AVSE. In this work, we introduce AV2Wav, a resynthesis-based audio-visual speech enhancement approach that can generate clean speech despite the challenges of real-world training data. We obtain a subset of nearly clean speech from an audio-visual corpus using a neural quality estimator, and then train a diffusion model on this subset to generate waveforms conditioned on continuous speech representations from AV-HuBERT with noise-robust training. We use continuous rather than discrete representations to retain prosody and speaker information. With this vocoding task alone, the model can perform speech enhancement better than a masking-based baseline. We further fine-tune the diffusion model on clean/noisy utterance pairs to improve the performance. Our approach outperforms a masking-based baseline in terms of both automatic metrics and a human listening test and is close in quality to the target speech in the listening test. Audio samples can be found at https://home.ttic.edu/~jcchou/demo/avse/avse_demo.html.
Abstract（参考訳）: 音声強調システムは通常、クリーンな音声と騒がしい音声のペアを使って訓練される。オーディオ・ヴィジュアル音声強調(AVSE)では、音声・ヴィジュアル・データセットは、背景雑音や残響を伴う現実世界の環境で収集され、AVSEの開発を妨げている。本研究では,実世界の学習データの課題にもかかわらずクリーンな音声を生成できる再生型音声視覚音声強調手法であるAV2Wavを紹介する。ニューラルクオリティ推定器を用いて音声・視覚コーパスからほぼクリーンな音声のサブセットを取得し、このサブセット上で拡散モデルを訓練し、ノイズロバストトレーニングによりAV-HuBERTから連続音声表現に条件付き波形を生成する。韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。このvocodingタスクだけで、モデルはマスキングベースのベースラインよりも音声強調を行うことができる。さらに, クリーン・ノイズ対の拡散モデルを微調整し, 性能向上を図る。提案手法は,自動測定と人間の聴力テストの両方においてマスキングベースのベースラインを上回り,聴力テストにおけるターゲット音声にほぼ近い品質である。オーディオサンプルはhttps://home.ttic.edu/~jcchou/demo/avse/avse_demo.htmlにある。

関連論文リスト

Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声-視覚音声強調(AVSE)手法を提案する。拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き生成型AVSE法よりも優れていたことが確認された。
論文参考訳（メタデータ） (2024-10-04T12:22:54Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。 AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文参考訳（メタデータ） (2023-05-24T17:59:03Z)
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文参考訳（メタデータ） (2022-11-20T15:27:55Z)
Audio-visual speech enhancement with a deep Kalman filter generative model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。テスト時に音声信号を推定する効率的な推論手法を開発した。
論文参考訳（メタデータ） (2022-11-02T09:50:08Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文参考訳（メタデータ） (2020-08-17T10:12:33Z)
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文参考訳（メタデータ） (2020-07-08T14:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。