Fugu-MT 論文翻訳(概要): RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

論文の概要: RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

arxiv url: http://arxiv.org/abs/2406.18284v1
Date: Wed, 26 Jun 2024 12:09:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 13:39:16.235777
Title: RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network
Title（参考訳）: RealTalk: 3D Facial pre-guided Identity Alignment Networkによるリアルタイム・リアルオーディオ駆動顔生成
Authors: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang,
Abstract要約: RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
参考スコア（独自算出の注目度）: 63.77823518278202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Person-generic audio-driven face generation is a challenging task in computer vision. Previous methods have achieved remarkable progress in audio-visual synchronization, but there is still a significant gap between current results and practical applications. The challenges are two-fold: 1) Preserving unique individual traits for achieving high-precision lip synchronization. 2) Generating high-quality facial renderings in real-time performance. In this paper, we propose a novel generalized audio-driven framework RealTalk, which consists of an audio-to-expression transformer and a high-fidelity expression-to-face renderer. In the first component, we consider both identity and intra-personal variation features related to speaking lip movements. By incorporating cross-modal attention on the enriched facial priors, we can effectively align lip movements with audio, thus attaining greater precision in expression prediction. In the second component, we design a lightweight facial identity alignment (FIA) module which includes a lip-shape control structure and a face texture reference structure. This novel design allows us to generate fine details in real-time, without depending on sophisticated and inefficient feature alignment modules. Our experimental results, both quantitative and qualitative, on public datasets demonstrate the clear advantages of our method in terms of lip-speech synchronization and generation quality. Furthermore, our method is efficient and requires fewer computational resources, making it well-suited to meet the needs of practical applications.
Abstract（参考訳）: 人物生成型音声駆動顔生成はコンピュータビジョンにおいて難しい課題である。従来の手法は音声と視覚の同期において顕著な進歩を遂げてきたが、現在の結果と実用的な応用の間には依然として大きなギャップがある。課題は2つあります。 1) 高精度な唇同期を実現するために, 個々の特徴を個別に保存する。 2) リアルタイムな顔の描画における高品質な顔画像の生成本稿では,音声から表現への変換と高忠実度表現から顔へのレンダラーからなる,新しい一般化された音声駆動フレームワークであるRealTalkを提案する。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。顔の重み付けにモーダルな注意を組み込むことで, 唇の動きを音声に効果的に合わせることができ, 表情予測の精度が向上する。第2のコンポーネントでは、リップ形状制御構造と顔テクスチャ参照構造を含む軽量な顔識別アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。公開データセットにおける定量的および定性的な実験結果から,唇音声同期と生成品質の観点から,本手法の明確な利点が示された。さらに,本手法は効率が高く,計算資源も少なく,実用アプリケーションのニーズを満たすのに適している。

関連論文リスト

StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。 Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文参考訳（メタデータ） (2025-09-26T05:23:31Z)
Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [54.52905471078152]
本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
論文参考訳（メタデータ） (2025-07-28T16:03:36Z)
PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [34.43272121705662]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。 PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文参考訳（メタデータ） (2024-12-10T18:51:31Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。 HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文参考訳（メタデータ） (2024-05-09T09:22:09Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)
GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
Realistic Speech-to-Face Generation with Speech-Conditioned Latent Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文参考訳（メタデータ） (2023-10-05T07:44:49Z)
SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend 3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文参考訳（メタデータ） (2023-06-19T09:39:10Z)
GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。 NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文参考訳（メタデータ） (2023-05-01T12:24:09Z)
Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文参考訳（メタデータ） (2022-12-09T16:32:46Z)
DFA-NeRF: Personalized Talking Head Generation via Disentangled Face Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文参考訳（メタデータ） (2022-01-03T18:23:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。