論文の概要: Visual Speech Enhancement Without A Real Visual Stream
- arxiv url: http://arxiv.org/abs/2012.10852v1
- Date: Sun, 20 Dec 2020 06:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 08:57:36.801084
- Title: Visual Speech Enhancement Without A Real Visual Stream
- Title(参考訳): 実際のビジュアルストリームを伴わない視覚音声強調
- Authors: Sindhu B Hegde, K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri,
C.V. Jawahar
- Abstract要約: 現在の最先端の手法はオーディオストリームのみを使用しており、その性能は幅広い現実世界のノイズで制限されている。
唇の動きを付加的な手がかりとして用いる最近の作品は、"オーディオオンリー"な方法で発話の質を向上させます。
音声駆動唇合成における最近の進歩を利用して,音声強調のための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 37.88869937166955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we re-think the task of speech enhancement in unconstrained
real-world environments. Current state-of-the-art methods use only the audio
stream and are limited in their performance in a wide range of real-world
noises. Recent works using lip movements as additional cues improve the quality
of generated speech over "audio-only" methods. But, these methods cannot be
used for several applications where the visual stream is unreliable or
completely absent. We propose a new paradigm for speech enhancement by
exploiting recent breakthroughs in speech-driven lip synthesis. Using one such
model as a teacher network, we train a robust student network to produce
accurate lip movements that mask away the noise, thus acting as a "visual noise
filter". The intelligibility of the speech enhanced by our pseudo-lip approach
is comparable (< 3% difference) to the case of using real lips. This implies
that we can exploit the advantages of using lip movements even in the absence
of a real video stream. We rigorously evaluate our model using quantitative
metrics as well as human evaluations. Additional ablation studies and a demo
video on our website containing qualitative comparisons and results clearly
illustrate the effectiveness of our approach. We provide a demo video which
clearly illustrates the effectiveness of our proposed approach on our website:
\url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visu al-stream}.
The code and models are also released for future research:
\url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}.
- Abstract(参考訳): 本研究では,制約のない実環境における音声強調の課題を再考する。
現在の最先端の手法はオーディオストリームのみを使用しており、その性能は幅広い現実世界のノイズで制限されている。
唇の動きを付加的な手がかりとして用いた最近の研究は、"audio-only"法よりも生成音声の品質を向上させる。
しかし、これらの方法は、ビジュアルストリームが信頼できない、あるいは完全に欠落しているいくつかのアプリケーションでは使用できない。
音声駆動唇合成における最近のブレークスルーを生かして,音声強調のための新しいパラダイムを提案する。
教師ネットワークのようなモデルを用いて, 学生ネットワークを訓練し, 音を遮蔽する正確な唇運動を生成し, 「視覚ノイズフィルタ」として機能する。
擬似リップアプローチにより強調された音声の明瞭度は, 実唇を用いた場合と比較して 3% 差がある。
これは、実際のビデオストリームがなくても、唇の動きを利用する利点を活用できることを意味している。
定量的指標と人的評価を用いて, 厳密な評価を行った。
さらなるアブレーション研究とwebサイトのデモビデオでは、質的比較と結果が、我々のアプローチの有効性を明確に示しています。
本稿では,提案手法の有効性を,Webサイト上で明らかに示すデモビデオを提供する。
コードとモデルは、将来の研究のためにもリリースされている。
関連論文リスト
- SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model [35.60147467774199]
SAV-SEは、同期ビデオからのリッチな文脈情報を、ノイズの種類を示す補助的手がかりとして使うための最初の提案である。
我々の知る限り、これは、音声強調性能を向上させるために、同期ビデオからリッチな文脈情報を補助的手がかりとして使用する最初の提案である。
論文 参考訳(メタデータ) (2024-11-12T12:23:41Z) - Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert [13.60808166889775]
口唇の動きを正確に生成するための音声駆動型3次元顔アニメーション法を提案する。
この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。
提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
論文 参考訳(メタデータ) (2024-07-01T07:39:28Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。