論文の概要: Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis
- arxiv url: http://arxiv.org/abs/2005.08209v1
- Date: Sun, 17 May 2020 10:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:25:11.721495
- Title: Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis
- Title(参考訳): 正確な口唇音声合成のための個別発話スタイル学習
- Authors: K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar
- Abstract要約: 本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。
我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。
そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 37.37319356008348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans involuntarily tend to infer parts of the conversation from lip
movements when the speech is absent or corrupted by external noise. In this
work, we explore the task of lip to speech synthesis, i.e., learning to
generate natural speech given only the lip movements of a speaker.
Acknowledging the importance of contextual and speaker-specific cues for
accurate lip-reading, we take a different path from existing works. We focus on
learning accurate lip sequences to speech mappings for individual speakers in
unconstrained, large vocabulary settings. To this end, we collect and release a
large-scale benchmark dataset, the first of its kind, specifically to train and
evaluate the single-speaker lip to speech task in natural settings. We propose
a novel approach with key design choices to achieve accurate, natural lip to
speech synthesis in such unconstrained scenarios for the first time. Extensive
evaluation using quantitative, qualitative metrics and human evaluation shows
that our method is four times more intelligible than previous works in this
space. Please check out our demo video for a quick overview of the paper,
method, and qualitative results.
https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be
- Abstract(参考訳): 人間は自発的に会話の一部を口唇の動きから推測する傾向がある。
本研究では,話者の唇の動きのみから自然発声を学習する,口唇音声合成の課題について検討する。
口唇読解における文脈的・話者特異的な手がかりの重要性を認識し,既存の研究と異なる道のりをたどる。
制約のない大きな語彙設定で個々の話者の正確なリップシーケンスと音声マッピングの学習に焦点をあてた。
この目的を達成するために,我々は,自然環境において単一話者の口唇から音声へのタスクを訓練し,評価するための,最初のベンチマークデータセットを収集し,公開する。
このような制約のないシナリオにおいて、音声合成の正確で自然な唇を実現するための、重要な設計選択を伴う新しいアプローチを提案する。
定量的,定性的な測定値と人的評価値を用いた大規模評価は,本手法が従来の研究の4倍の知能を有することを示す。
論文、方法、定性的な結果の簡単な概要については、デモビデオをご覧ください。
https://www.youtube.com/watch?
v=HziA-jmlk_4&feature=youtu.be
関連論文リスト
- Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Let There Be Sound: Reconstructing High Quality Speech from Silent
Videos [34.306490673301184]
この研究の目的は、唇の動きだけで高品質な音声を再構築することである。
音声合成システムにおける重要な課題は、一対多のマッピングである。
生成品質を大幅に向上させる新しい音声合成システムを提案する。
論文 参考訳(メタデータ) (2023-08-29T12:30:53Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [58.72068260933836]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - Show Me Your Face, And I'll Tell You How You Speak [0.0]
我々は,話者の唇の動きのみを与えられた音声を生成することを学習する,口唇から音声合成の課題を探求する。
本稿では,制約のないシナリオにおいて,唇から音声への正確な合成を実現するために重要な設計選択を施した新しい手法「Lip2Speech」を提案する。
論文 参考訳(メタデータ) (2022-06-28T13:52:47Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。