論文の概要: Towards Accurate Lip-to-Speech Synthesis in-the-Wild
- arxiv url: http://arxiv.org/abs/2403.01087v1
- Date: Sat, 2 Mar 2024 04:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:17:30.424700
- Title: Towards Accurate Lip-to-Speech Synthesis in-the-Wild
- Title(参考訳): 正確な唇と音声の合成を目指して
- Authors: Sindhu Hegde, Rudrabha Mukhopadhyay, C.V. Jawahar, Vinay Namboodiri
- Abstract要約: そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
- 参考スコア(独自算出の注目度): 31.289366690147556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel approach to address the task of
synthesizing speech from silent videos of any in-the-wild speaker solely based
on lip movements. The traditional approach of directly generating speech from
lip videos faces the challenge of not being able to learn a robust language
model from speech alone, resulting in unsatisfactory outcomes. To overcome this
issue, we propose incorporating noisy text supervision using a state-of-the-art
lip-to-text network that instills language information into our model. The
noisy text is generated using a pre-trained lip-to-text model, enabling our
approach to work without text annotations during inference. We design a visual
text-to-speech network that utilizes the visual stream to generate accurate
speech, which is in-sync with the silent input video. We perform extensive
experiments and ablation studies, demonstrating our approach's superiority over
the current state-of-the-art methods on various benchmark datasets. Further, we
demonstrate an essential practical application of our method in assistive
technology by generating speech for an ALS patient who has lost the voice but
can make mouth movements. Our demo video, code, and additional details can be
found at
\url{http://cvit.iiit.ac.in/research/projects/cvit-projects/ms-l2s-itw}.
- Abstract(参考訳): 本稿では,唇の動きのみに基づいて,無声音声から音声を合成する新しい手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけでは堅牢な言語モデルを学べないという課題に直面しており、満足できない結果をもたらす。
この問題を解決するために,我々は,言語情報をモデルに組み込む最先端のリップ・ツー・テキストネットワークを用いて,ノイズの多いテキストの監督を行うことを提案する。
ノイズの多いテキストは、事前トレーニングされたlip-to-textモデルを使用して生成されます。
我々は、視覚ストリームを利用して、サイレント入力ビデオと同期した正確な音声を生成するビジュアルテキスト音声ネットワークを設計する。
我々は、様々なベンチマークデータセット上で、最先端の手法よりもアプローチが優れていることを示す広範な実験とアブレーション研究を行う。
また,als患者に対して音声を失くしながら口の動きを起こせる音声を生成させることにより,補助技術における本手法の実用的応用を実証する。
デモビデオ、コード、その他の詳細は、 \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/ms-l2s-itw} で見ることができる。
関連論文リスト
- Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
本稿では,VTTSのビデオから音声を生成するタスクを提案し,マルチモーダル音声生成のための新しい手法を提案する。
本稿では,このタスクをビザトロニクスと呼ぶデコーダのみのマルチモーダルモデルを提案する。
視覚、テキスト、音声を直接トランスフォーマーモデルの共通部分空間に埋め込み、自己回帰的損失を用いて、話者ビデオや音声の書き起こしに条件付けられた離散化メル-スペクトログラムの生成モデルを学ぶ。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Visual Speech Enhancement Without A Real Visual Stream [37.88869937166955]
現在の最先端の手法はオーディオストリームのみを使用しており、その性能は幅広い現実世界のノイズで制限されている。
唇の動きを付加的な手がかりとして用いる最近の作品は、"オーディオオンリー"な方法で発話の質を向上させます。
音声駆動唇合成における最近の進歩を利用して,音声強調のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2020-12-20T06:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。