論文の概要: Show Me Your Face, And I'll Tell You How You Speak
- arxiv url: http://arxiv.org/abs/2206.14009v1
- Date: Tue, 28 Jun 2022 13:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 10:51:05.190981
- Title: Show Me Your Face, And I'll Tell You How You Speak
- Title(参考訳): 顔を見せて 話し方を教えてやる
- Authors: Christen Millerdurai, Lotfy Abdel Khaliq, and Timon Ulrich
- Abstract要約: 我々は,話者の唇の動きのみを与えられた音声を生成することを学習する,口唇から音声合成の課題を探求する。
本稿では,制約のないシナリオにおいて,唇から音声への正確な合成を実現するために重要な設計選択を施した新しい手法「Lip2Speech」を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When we speak, the prosody and content of the speech can be inferred from the
movement of our lips. In this work, we explore the task of lip to speech
synthesis, i.e., learning to generate speech given only the lip movements of a
speaker where we focus on learning accurate lip to speech mappings for multiple
speakers in unconstrained, large vocabulary settings. We capture the speaker's
voice identity through their facial characteristics, i.e., age, gender,
ethnicity and condition them along with the lip movements to generate speaker
identity aware speech. To this end, we present a novel method "Lip2Speech",
with key design choices to achieve accurate lip to speech synthesis in
unconstrained scenarios. We also perform various experiments and extensive
evaluation using quantitative, qualitative metrics and human evaluation.
- Abstract(参考訳): 話すとき、音声の韻律と内容は唇の動きから推測できる。
本研究では, 話者の唇の動きのみを学習し, 話者の唇の動きのみを学習し, 複数の話者に対する音声マッピングを, 制約のない, 大規模な語彙設定で学習する。
話者の身元を年齢、性別、民族性などの顔の特徴によって捉え、唇の動きとともに条件付けし、話者の身元を認識する音声を生成する。
そこで本研究では,リップと音声の正確な合成を実現するための重要な設計手法であるlip2speechを提案する。
また,量的,質的指標と人的評価を用いて,様々な実験を行い,広範な評価を行った。
関連論文リスト
- Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [58.72068260933836]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis [37.37319356008348]
本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。
我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。
そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-17T10:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。