論文の概要: Learning Speaker-specific Lip-to-Speech Generation
- arxiv url: http://arxiv.org/abs/2206.02050v1
- Date: Sat, 4 Jun 2022 19:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 14:27:39.706048
- Title: Learning Speaker-specific Lip-to-Speech Generation
- Title(参考訳): 話者固有のリップ・トゥ・音声生成の学習
- Authors: Munender Varshney, Ravindra Yadav, Vinay P. Namboodiri, Rajesh M Hegde
- Abstract要約: 本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
- 参考スコア(独自算出の注目度): 28.620557933595585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the lip movement and inferring the speech from it is
notoriously difficult for the common person. The task of accurate lip-reading
gets help from various cues of the speaker and its contextual or environmental
setting. Every speaker has a different accent and speaking style, which can be
inferred from their visual and speech features. This work aims to understand
the correlation/mapping between speech and the sequence of lip movement of
individual speakers in an unconstrained and large vocabulary. We model the
frame sequence as a prior to the transformer in an auto-encoder setting and
learned a joint embedding that exploits temporal properties of both audio and
video. We learn temporal synchronization using deep metric learning, which
guides the decoder to generate speech in sync with input lip movements. The
predictive posterior thus gives us the generated speech in speaker speaking
style. We have trained our model on the Grid and Lip2Wav Chemistry lecture
dataset to evaluate single speaker natural speech generation tasks from lip
movement in an unconstrained natural setting. Extensive evaluation using
various qualitative and quantitative metrics with human evaluation also shows
that our method outperforms the Lip2Wav Chemistry dataset(large vocabulary in
an unconstrained setting) by a good margin across almost all evaluation metrics
and marginally outperforms the state-of-the-art on GRID dataset.
- Abstract(参考訳): 唇の動きを理解し、スピーチを推論することは、一般人にとっては難しいことで悪名高い。
正確な唇読みのタスクは、話者の様々な手がかりと、その文脈や環境設定から助けを得る。
各話者は異なるアクセントと話し方を持ち、視覚的特徴と音声的特徴から推測することができる。
本研究の目的は, 音声と個々の話者の唇の動きの順序との関係を, 制約のない大語彙で理解することである。
自動エンコーダ設定のトランスフォーマタに先立ってフレームシーケンスをモデル化し,音声とビデオの両方の時間的特性を利用するジョイント埋め込みを学習した。
入力された唇の動きと同期して音声を生成するためにデコーダを誘導するディープメトリック学習を用いて,時間同期を学習する。
したがって、予測後部は、発話スタイルで生成された音声を与える。
我々は, グリッドおよびlip2wav化学講義データセットを用いて, 自然環境下での唇運動から単一話者の自然音声生成タスクを評価するためのモデルを構築した。
また, 各種定性的, 定量的な測定値を用いた広範囲な評価により, 提案手法はLip2Wav Chemistry データセット(制約のない条件下での大規模語彙)をほぼすべての評価指標に対して良好なマージンで上回り, GRID データセットの最先端をわずかに上回ることがわかった。
関連論文リスト
- Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - Show Me Your Face, And I'll Tell You How You Speak [0.0]
我々は,話者の唇の動きのみを与えられた音声を生成することを学習する,口唇から音声合成の課題を探求する。
本稿では,制約のないシナリオにおいて,唇から音声への正確な合成を実現するために重要な設計選択を施した新しい手法「Lip2Speech」を提案する。
論文 参考訳(メタデータ) (2022-06-28T13:52:47Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis [37.37319356008348]
本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。
我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。
そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-17T10:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。