論文の概要: DiffTalker: Co-driven audio-image diffusion for talking faces via
intermediate landmarks
- arxiv url: http://arxiv.org/abs/2309.07509v1
- Date: Thu, 14 Sep 2023 08:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:47:38.268518
- Title: DiffTalker: Co-driven audio-image diffusion for talking faces via
intermediate landmarks
- Title(参考訳): difftalker:中間ランドマークによる発話面の共駆動音声画像拡散
- Authors: Zipeng Qi, Xulong Zhang, Ning Cheng, Jing Xiao, Jianzong Wang
- Abstract要約: DiffTalkerは、音声とランドマークによる共同運転を通じて、生活に似た会話顔を生成するように設計された、新しいモデルである。
実験ではDiffTalkerが明瞭で幾何学的に正確な発話顔を生成する上で優れた性能を示した。
- 参考スコア(独自算出の注目度): 34.80705897511651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic talking faces is a complex and widely discussed task
with numerous applications. In this paper, we present DiffTalker, a novel model
designed to generate lifelike talking faces through audio and landmark
co-driving. DiffTalker addresses the challenges associated with directly
applying diffusion models to audio control, which are traditionally trained on
text-image pairs. DiffTalker consists of two agent networks: a
transformer-based landmarks completion network for geometric accuracy and a
diffusion-based face generation network for texture details. Landmarks play a
pivotal role in establishing a seamless connection between the audio and image
domains, facilitating the incorporation of knowledge from pre-trained diffusion
models. This innovative approach efficiently produces articulate-speaking
faces. Experimental results showcase DiffTalker's superior performance in
producing clear and geometrically accurate talking faces, all without the need
for additional alignment between audio and image features.
- Abstract(参考訳): 現実的な話し顔の生成は、多くのアプリケーションで複雑で広く議論されているタスクである。
本稿では,音声とランドマークによる共同運転により,生活に似た発話顔を生成する新しいモデルDiffTalkerを提案する。
difftalkerは、従来のテキストと画像のペアで訓練されたオーディオ制御に拡散モデルを直接適用することに関連する課題に対処する。
DiffTalkerは2つのエージェントネットワークから構成される: 幾何精度のためのトランスフォーマーベースのランドマーク補完ネットワークと、テクスチャ詳細のための拡散ベースの顔生成ネットワークである。
ランドマークは、オーディオと画像ドメイン間のシームレスな接続を確立する上で重要な役割を担い、事前訓練された拡散モデルからの知識の取り込みを促進する。
このイノベーティブなアプローチは、音声の表情を効率よく生成する。
実験結果から、DiffTalkerは明瞭で幾何学的に正確な発話顔を生成するのに優れた性能を示しており、音声と画像の特徴を付加する必要がない。
関連論文リスト
- FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces
from Disentangled Audio [47.070848508118836]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - DreamTalk: When Expressive Talking Head Generation Meets Diffusion
Probabilistic Models [26.896633471326744]
本研究では,表現力のある発話ヘッドを生成する際の拡散モデルの可能性を解き放つためのDreamTalkフレームワークを提案する。
DreamTalkは、デノベーションネットワーク、スタイル対応のリップエキスパート、スタイル予測器で構成されている。
実験結果から,DreamTalkは多様な発話スタイルで写真リアルな発話顔を生成することができることがわかった。
論文 参考訳(メタデータ) (2023-12-15T13:15:42Z) - SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。
本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文 参考訳(メタデータ) (2023-06-19T09:39:10Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。