論文の概要: ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement
- arxiv url: http://arxiv.org/abs/2212.11377v1
- Date: Wed, 21 Dec 2022 21:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:16:38.504292
- Title: ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement
- Title(参考訳): ReVISE: 一般化音声強調のための視覚入力による自己改善音声合成
- Authors: Wei-Ning Hsu, Tal Remez, Bowen Shi, Jacob Donley, Yossi Adi
- Abstract要約: ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 40.29155338515071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior works on improving speech quality with visual input typically study
each type of auditory distortion separately (e.g., separation, inpainting,
video-to-speech) and present tailored algorithms. This paper proposes to unify
these subjects and study Generalized Speech Enhancement, where the goal is not
to reconstruct the exact reference clean signal, but to focus on improving
certain aspects of speech. In particular, this paper concerns intelligibility,
quality, and video synchronization. We cast the problem as audio-visual speech
resynthesis, which is composed of two steps: pseudo audio-visual speech
recognition (P-AVSR) and pseudo text-to-speech synthesis (P-TTS). P-AVSR and
P-TTS are connected by discrete units derived from a self-supervised speech
model. Moreover, we utilize self-supervised audio-visual speech model to
initialize P-AVSR. The proposed model is coined ReVISE. ReVISE is the first
high-quality model for in-the-wild video-to-speech synthesis and achieves
superior performance on all LRS3 audio-visual enhancement tasks with a single
model. To demonstrates its applicability in the real world, ReVISE is also
evaluated on EasyCom, an audio-visual benchmark collected under challenging
acoustic conditions with only 1.6 hours of training data. Similarly, ReVISE
greatly suppresses noise and improves quality. Project page:
https://wnhsu.github.io/ReVISE.
- Abstract(参考訳): 視覚入力による音声品質向上に関する先行研究は、通常、それぞれの種類の聴覚歪み(例えば、分離、塗装、ビデオ音声合成)を別々に研究し、調整されたアルゴリズムを提示する。
本稿では,これらの課題を統一し,正確な参照クリーン信号の再構成ではなく,音声の特定の側面の改善に焦点をあてた一般化音声強調手法を提案する。
特に,視認性,品質,映像の同期性について述べる。
P-AVSR と擬似音声音声合成 (P-TTS) の2段階からなる音声-音声合成としてこの問題を提起した。
P-AVSRとP-TTSは、自己教師付き音声モデルから導出される離散単位によって接続される。
さらに,自己教師付き視聴覚モデルを用いてp-avsrを初期化する。
提案したモデルはReVISEと呼ばれる。
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルであり、単一のモデルで全てのLRS3音声視覚強調タスクにおいて優れたパフォーマンスを実現する。
実世界での適用性を示すために、ReVISEは、1.6時間のトレーニングデータしか持たない挑戦的な音響条件下で収集されたオーディオ視覚ベンチマークであるEasyComでも評価されている。
同様に、ReVISEはノイズを大幅に抑制し、品質を向上する。
プロジェクトページ: https://wnhsu.github.io/ReVISE
関連論文リスト
- AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。