Fugu-MT 論文翻訳(概要): PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation

論文の概要: PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation

arxiv url: http://arxiv.org/abs/2412.07754v1
Date: Tue, 10 Dec 2024 18:51:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.473918
Title: PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation
Title（参考訳）: PortraitTalk: カスタマイズ可能なワンショット・オーディオ・ツー・トーク・フェイスジェネレーションを目指して
Authors: Fatemeh Nazarieh, Zhenhua Feng, Diptesh Kanojia, Muhammad Awais, Josef Kittler,
Abstract要約: そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。 PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
参考スコア（独自算出の注目度）: 34.43272121705662
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-driven talking face generation is a challenging task in digital communication. Despite significant progress in the area, most existing methods concentrate on audio-lip synchronization, often overlooking aspects such as visual quality, customization, and generalization that are crucial to producing realistic talking faces. To address these limitations, we introduce a novel, customizable one-shot audio-driven talking face generation framework, named PortraitTalk. Our proposed method utilizes a latent diffusion framework consisting of two main components: IdentityNet and AnimateNet. IdentityNet is designed to preserve identity features consistently across the generated video frames, while AnimateNet aims to enhance temporal coherence and motion consistency. This framework also integrates an audio input with the reference images, thereby reducing the reliance on reference-style videos prevalent in existing approaches. A key innovation of PortraitTalk is the incorporation of text prompts through decoupled cross-attention mechanisms, which significantly expands creative control over the generated videos. Through extensive experiments, including a newly developed evaluation metric, our model demonstrates superior performance over the state-of-the-art methods, setting a new standard for the generation of customizable realistic talking faces suitable for real-world applications.
Abstract（参考訳）: 音声駆動の会話顔生成は、デジタルコミュニケーションにおいて難しい課題である。この領域では大きな進歩があったが、既存のほとんどの手法はオーディオ・リップ同期に焦点を合わせており、視覚的品質、カスタマイズ、一般化といった現実的な話し声を生み出すのに欠かせない側面を見落としていることが多い。これらの制約に対処するために,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを導入する。提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。 IdentityNetは、生成されたビデオフレーム間で一貫したアイデンティティ機能を保持するように設計されており、AnimateNetは、時間的コヒーレンスとモーション一貫性を強化することを目指している。このフレームワークはまた、オーディオ入力と参照画像を統合することで、既存のアプローチで一般的な参照スタイルのビデオへの依存を減らす。 PortraitTalkの重要なイノベーションは、テキストプロンプトを分離したクロスアテンション機構を通じて組み込むことで、生成されたビデオに対する創造的なコントロールを大幅に拡大する。新たに開発された評価指標を含む広範囲な実験により,本モデルは最先端の手法よりも優れた性能を示し,実世界の応用に適した,カスタマイズ可能な現実的な発話顔を生成するための新しい標準を策定する。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
OmniTalker: Real-Time Text-Driven Talking Head Generation with In-Context Audio-Visual Style Replication [19.688375369516923]
我々は,リアルタイムゼロショットシナリオにおけるテキストと参照ビデオから,同期音声と音声ヘッドビデオを同時に生成するエンドツーエンド統合フレームワークを提案する。提案手法は,特にスタイル保存や音声-ビデオ同期に優れた生成品質の既存手法を超越した手法である。
論文参考訳（メタデータ） (2025-04-03T09:48:13Z)
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。 MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文参考訳（メタデータ） (2024-12-05T18:57:26Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文参考訳（メタデータ） (2024-06-26T12:09:59Z)
Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文参考訳（メタデータ） (2024-06-13T04:33:20Z)
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。 AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-06T02:32:41Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)
Identity-Preserving Talking Face Generation with Landmark and Appearance Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文参考訳（メタデータ） (2023-05-15T01:31:32Z)
MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文参考訳（メタデータ） (2020-04-27T17:56:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。