Fugu-MT 論文翻訳(概要): DiffTalker: Co-driven audio-image diffusion for talking faces via intermediate landmarks

論文の概要: DiffTalker: Co-driven audio-image diffusion for talking faces via intermediate landmarks

arxiv url: http://arxiv.org/abs/2309.07509v1
Date: Thu, 14 Sep 2023 08:22:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 15:47:38.268518
Title: DiffTalker: Co-driven audio-image diffusion for talking faces via intermediate landmarks
Title（参考訳）: difftalker:中間ランドマークによる発話面の共駆動音声画像拡散
Authors: Zipeng Qi, Xulong Zhang, Ning Cheng, Jing Xiao, Jianzong Wang
Abstract要約: DiffTalkerは、音声とランドマークによる共同運転を通じて、生活に似た会話顔を生成するように設計された、新しいモデルである。実験ではDiffTalkerが明瞭で幾何学的に正確な発話顔を生成する上で優れた性能を示した。
参考スコア（独自算出の注目度）: 34.80705897511651
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating realistic talking faces is a complex and widely discussed task with numerous applications. In this paper, we present DiffTalker, a novel model designed to generate lifelike talking faces through audio and landmark co-driving. DiffTalker addresses the challenges associated with directly applying diffusion models to audio control, which are traditionally trained on text-image pairs. DiffTalker consists of two agent networks: a transformer-based landmarks completion network for geometric accuracy and a diffusion-based face generation network for texture details. Landmarks play a pivotal role in establishing a seamless connection between the audio and image domains, facilitating the incorporation of knowledge from pre-trained diffusion models. This innovative approach efficiently produces articulate-speaking faces. Experimental results showcase DiffTalker's superior performance in producing clear and geometrically accurate talking faces, all without the need for additional alignment between audio and image features.
Abstract（参考訳）: 現実的な話し顔の生成は、多くのアプリケーションで複雑で広く議論されているタスクである。本稿では,音声とランドマークによる共同運転により,生活に似た発話顔を生成する新しいモデルDiffTalkerを提案する。 difftalkerは、従来のテキストと画像のペアで訓練されたオーディオ制御に拡散モデルを直接適用することに関連する課題に対処する。 DiffTalkerは2つのエージェントネットワークから構成される: 幾何精度のためのトランスフォーマーベースのランドマーク補完ネットワークと、テクスチャ詳細のための拡散ベースの顔生成ネットワークである。ランドマークは、オーディオと画像ドメイン間のシームレスな接続を確立する上で重要な役割を担い、事前訓練された拡散モデルからの知識の取り込みを促進する。このイノベーティブなアプローチは、音声の表情を効率よく生成する。実験結果から、DiffTalkerは明瞭で幾何学的に正確な発話顔を生成するのに優れた性能を示しており、音声と画像の特徴を付加する必要がない。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
Shushing! Let's Imagine an Authentic Speech from the Silent Video [15.426152742881365]
視覚誘導音声生成は、聴覚信号に頼ることなく、顔の外観や唇の動きから真の音声を生成することを目的としている。近年の進歩にもかかわらず、既存の手法は視覚的手がかりから意味論、音色、感情的な韻律を横断的に統一するのに苦労している。 ImaginTalkは、視覚入力のみを用いて忠実な音声を生成する新しいクロスモーダル拡散フレームワークである。
論文参考訳（メタデータ） (2025-03-19T06:28:17Z)
JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文参考訳（メタデータ） (2024-09-18T17:18:13Z)
KAN-Based Fusion of Dual-Domain for Audio-Driven Facial Landmarks Generation [8.111156834055821]
音声による会話顔の再構築は、教育、医療、オンライン会話、バーチャルアシスタント、バーチャルリアリティーなどの分野に大きく貢献する。近年、研究者たちは顔のポーズ、首、肩など、顔全体を構築する新しいアプローチを提案している。音声からランドマークを生成する頑健なモデルであるKFusion of Dual-Domainを提案する。
論文参考訳（メタデータ） (2024-09-09T05:20:02Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文参考訳（メタデータ） (2024-06-26T12:09:59Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)
SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend 3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文参考訳（メタデータ） (2023-06-19T09:39:10Z)
Identity-Preserving Talking Face Generation with Landmark and Appearance Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文参考訳（メタデータ） (2023-05-15T01:31:32Z)
DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文参考訳（メタデータ） (2023-01-10T05:11:25Z)
DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。既存の手法のほとんどは、一人称音声音声生成に重点を置いている。ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-15T14:16:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。