Fugu-MT 論文翻訳(概要): Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors

論文の概要: Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors

arxiv url: http://arxiv.org/abs/2212.04248v1
Date: Wed, 7 Dec 2022 17:55:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-09 16:46:12.503139
Title: Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors
Title（参考訳）: 確率的音声から視覚への拡散優先による発話頭部生成
Authors: Zhentao Yu, Zixin Yin, Deyu Zhou, Duomin Wang, Finn Wong, Baoyuan Wang
Abstract要約: ワンショット音声駆動音声ヘッド生成のためのシンプルで斬新なフレームワークを提案する。入力音声を意味的に一致させるために,全唇不関連顔の動きを確率的にサンプリングする。従来の拡散の確率的性質のおかげで、我々のフレームワークの大きな利点は、多様な顔の動きシーケンスを合成できることである。
参考スコア（独自算出の注目度）: 18.904856604045264
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce a simple and novel framework for one-shot audio-driven talking head generation. Unlike prior works that require additional driving sources for controlled synthesis in a deterministic manner, we instead probabilistically sample all the holistic lip-irrelevant facial motions (i.e. pose, expression, blink, gaze, etc.) to semantically match the input audio while still maintaining both the photo-realism of audio-lip synchronization and the overall naturalness. This is achieved by our newly proposed audio-to-visual diffusion prior trained on top of the mapping between audio and disentangled non-lip facial representations. Thanks to the probabilistic nature of the diffusion prior, one big advantage of our framework is it can synthesize diverse facial motion sequences given the same audio clip, which is quite user-friendly for many real applications. Through comprehensive evaluations on public benchmarks, we conclude that (1) our diffusion prior outperforms auto-regressive prior significantly on almost all the concerned metrics; (2) our overall system is competitive with prior works in terms of audio-lip synchronization but can effectively sample rich and natural-looking lip-irrelevant facial motions while still semantically harmonized with the audio input.
Abstract（参考訳）: 本稿では,ワンショット音声駆動対話ヘッド生成のためのシンプルで斬新なフレームワークを提案する。制御合成のための追加の駆動源を決定論的に要求する以前の作品とは異なり、我々は、音声-リップ同期のフォトリアリズムと全体的な自然性の両方を維持しながら、入力された音声にセマンティックに一致するように、全唇非関連顔の動き(例えば、ポーズ、表情、点滅、視線など)を確率的にサンプリングする。これは,新たに提案する音声から視覚への拡散を,音声と不連続な非リップ表現のマッピング上で事前学習することで実現される。従来の拡散の確率的性質のおかげで、我々のフレームワークの大きな利点は、同じ音声クリップを与えられた多様な顔の動きシーケンスを合成できることです。一般ベンチマークの総合評価を通じて,(1)拡散前の自己回帰は,ほぼすべての指標において有意に優れており,(2)全体的なシステムは,音声-リップ同期の観点からは先行研究と競合するが,音声入力と意味的に調和しながら,リッチで自然な唇非関連顔の動きを効果的にサンプリングすることができる。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文参考訳（メタデータ） (2025-02-17T07:29:36Z)
Sonic: Shifting Focus to Global Audio Perception in Portrait Animation [43.63279351897198]
発話顔生成の研究は、主に、顔の動きを同期させ、視覚的に魅力的で時間的に整合したアニメーションを作るという複雑さを探求する。我々は,グローバルな音声知識を活用し,全体的な知覚を高めるために,Sonicと呼ばれる新しいパラダイムを提案する。映像品質、時間的整合性、唇の同期精度、動きの多様性の点で、新しいオーディオ駆動のパラダイムが既存のSOTA手法より優れていることを示す。
論文参考訳（メタデータ） (2024-11-25T12:24:52Z)
S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文参考訳（メタデータ） (2024-08-18T03:59:57Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文参考訳（メタデータ） (2024-06-26T12:09:59Z)
DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文参考訳（メタデータ） (2023-01-10T05:11:25Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Towards Realistic Visual Dubbing with Heterogeneous Sources [22.250010330418398]
口唇の動きを任意の音声入力と同期させることがほとんどない。異種データのマイニングに高い柔軟性を持つ簡易で効率的な2段階のフレームワークを提案する。本手法は,2段階のサブネットワークにおけるトレーニングコーパスを独立的に活用することを可能にする。
論文参考訳（メタデータ） (2022-01-17T07:57:24Z)
MeshTalk: 3D Face Animation from Speech using Cross-Modality Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文参考訳（メタデータ） (2021-04-16T17:05:40Z)
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文参考訳（メタデータ） (2021-01-08T18:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。