論文の概要: VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via
Speech-Visage Feature Selection
- arxiv url: http://arxiv.org/abs/2206.07458v1
- Date: Wed, 15 Jun 2022 11:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 13:16:06.137387
- Title: VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via
Speech-Visage Feature Selection
- Title(参考訳): VisageSynTalk:音声視覚特徴選択による音声音声合成
- Authors: Joanna Hong, Minsu Kim, Yong Man Ro
- Abstract要約: 近年の研究では、サイレント・トーキング・フェイス・ビデオから音声を合成する際の印象的な性能が示されている。
本稿では、音声コンテンツと話者識別を、入力ビデオの視覚的特徴から分離する音声視覚選択モジュールを提案する。
提案する枠組みは、未確認被写体の無声音声映像が付与された場合でも、適切な内容を含む音声を合成する利点をもたらす。
- 参考スコア(独自算出の注目度): 32.65865343643458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to reconstruct speech from a silent talking face
video. Recent studies have shown impressive performance on synthesizing speech
from silent talking face videos. However, they have not explicitly considered
on varying identity characteristics of different speakers, which place a
challenge in the video-to-speech synthesis, and this becomes more critical in
unseen-speaker settings. Distinct from the previous methods, our approach is to
separate the speech content and the visage-style from a given silent talking
face video. By guiding the model to independently focus on modeling the two
representations, we can obtain the speech of high intelligibility from the
model even when the input video of an unseen subject is given. To this end, we
introduce speech-visage selection module that separates the speech content and
the speaker identity from the visual features of the input video. The
disentangled representations are jointly incorporated to synthesize speech
through visage-style based synthesizer which generates speech by coating the
visage-styles while maintaining the speech content. Thus, the proposed
framework brings the advantage of synthesizing the speech containing the right
content even when the silent talking face video of an unseen subject is given.
We validate the effectiveness of the proposed framework on the GRID, TCD-TIMIT
volunteer, and LRW datasets. The synthesized speech can be heard in
supplementary materials.
- Abstract(参考訳): 本研究の目的は,無声音声から音声を復元することである。
近年の研究では、サイレント・トーキング・フェイス・ビデオの音声合成における顕著な性能が示されている。
しかし、ビデオ音声合成において課題となる異なる話者の識別特性を明示的に考慮していないため、これは未知の話者設定においてより重要となる。
従来の方法と異なるのは, 発話内容とビザスタイルを, 所定の無声発話ビデオから分離する手法である。
モデルに2つの表現のモデリングに独立して焦点を合わせることで、未知の被写体の入力ビデオが与えられる場合でも、モデルから高い知能の音声を得ることができる。
そこで本研究では,音声コンテンツと話者識別と入力映像の視覚的特徴とを分離した音声視聴選択モジュールを提案する。
アンタングル表現は、その音声内容を維持しつつ、そのビザスタイルを塗布して音声を生成するビザスタイルベースシンセサイザーを介して音声を合成する。
そこで,提案手法は,未確認被写体の無声音声映像が提示された場合でも,適切な内容を含む音声を合成する利点をもたらす。
提案手法がGRID, TCD-TIMITボランティア, LRWデータセットに与える影響を検証した。
合成音声は補足材料で聞くことができる。
関連論文リスト
- DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Residual-guided Personalized Speech Synthesis based on Face Image [14.690030837311376]
先行研究は、自身の音声音声からなる大規模なデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出する。
本研究では,人間の顔からパーソナライズされた音声特徴を革新的に抽出し,ニューラルボコーダを用いてパーソナライズされた音声を合成する。
論文 参考訳(メタデータ) (2022-04-01T15:27:14Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。