論文の概要: Towards Realistic Visual Dubbing with Heterogeneous Sources
- arxiv url: http://arxiv.org/abs/2201.06260v1
- Date: Mon, 17 Jan 2022 07:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 15:51:18.455798
- Title: Towards Realistic Visual Dubbing with Heterogeneous Sources
- Title(参考訳): 異種音源を用いた現実的な視覚ドッキング
- Authors: Tianyi Xie, Liucheng Liao, Cheng Bi, Benlai Tang, Xiang Yin, Jianfei
Yang, Mingjie Wang, Jiali Yao, Yang Zhang, Zejun Ma
- Abstract要約: 口唇の動きを任意の音声入力と同期させることがほとんどない。
異種データのマイニングに高い柔軟性を持つ簡易で効率的な2段階のフレームワークを提案する。
本手法は,2段階のサブネットワークにおけるトレーニングコーパスを独立的に活用することを可能にする。
- 参考スコア(独自算出の注目度): 22.250010330418398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of few-shot visual dubbing focuses on synchronizing the lip
movements with arbitrary speech input for any talking head video. Albeit
moderate improvements in current approaches, they commonly require high-quality
homologous data sources of videos and audios, thus causing the failure to
leverage heterogeneous data sufficiently. In practice, it may be intractable to
collect the perfect homologous data in some cases, for example, audio-corrupted
or picture-blurry videos. To explore this kind of data and support
high-fidelity few-shot visual dubbing, in this paper, we novelly propose a
simple yet efficient two-stage framework with a higher flexibility of mining
heterogeneous data. Specifically, our two-stage paradigm employs facial
landmarks as intermediate prior of latent representations and disentangles the
lip movements prediction from the core task of realistic talking head
generation. By this means, our method makes it possible to independently
utilize the training corpus for two-stage sub-networks using more available
heterogeneous data easily acquired. Besides, thanks to the disentanglement, our
framework allows a further fine-tuning for a given talking head, thereby
leading to better speaker-identity preserving in the final synthesized results.
Moreover, the proposed method can also transfer appearance features from others
to the target speaker. Extensive experimental results demonstrate the
superiority of our proposed method in generating highly realistic videos
synchronized with the speech over the state-of-the-art.
- Abstract(参考訳): 数発の視覚ダビングのタスクは、任意の音声入力と唇の動きを同期させることに重点を置いている。
現在のアプローチでは適度に改善されているが、ビデオやオーディオの高品質なホモロジーデータソースを必要とするため、不均一なデータを十分に活用できない。
実際には、オーディオやピクチャブルなビデオなど、完全な均質なデータを集めるのは難しそうにない。
この種のデータを探索し,高精細なマイニングを支援するため,本稿では,ヘテロジニアスデータマイニングの柔軟性の高い簡易かつ効率的な2段階フレームワークを提案する。
特に,この2段階のパラダイムでは,潜在表現の中間として顔のランドマークを用い,現実的な発話ヘッド生成のコアタスクから唇運動予測を分離する。
これにより、より利用可能な異種データを容易に取得できる2段階のサブネットワークに対して、トレーニングコーパスを独立に利用することが可能となる。
さらに,このアンタングル化により,本フレームワークは,音声頭部のさらなる微調整が可能となり,最終的な合成結果の話者識別性が向上する。
また,提案手法では,他者からターゲット話者に外観特徴を伝達することもできる。
広範に実験を行い,提案手法が最先端の音声に同期した高写実性映像を生成する上で優れていることを示した。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Talking Head Generation with Probabilistic Audio-to-Visual Diffusion
Priors [18.904856604045264]
ワンショット音声駆動音声ヘッド生成のためのシンプルで斬新なフレームワークを提案する。
入力音声を意味的に一致させるために,全唇不関連顔の動きを確率的にサンプリングする。
従来の拡散の確率的性質のおかげで、我々のフレームワークの大きな利点は、多様な顔の動きシーケンスを合成できることである。
論文 参考訳(メタデータ) (2022-12-07T17:55:41Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。