論文の概要: EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2404.01647v1
- Date: Tue, 2 Apr 2024 05:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 17:48:15.861737
- Title: EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis
- Title(参考訳): EDTalk:感情的トーキングヘッド合成のための効率的なディスタングル
- Authors: Shuai Tan, Bin Ji, Mengxiao Bi, Ye Pan,
- Abstract要約: 本稿では, 対話音声生成のための効率的な分散化フレームワーク(EDTalk)を提案する。
本フレームワークは,映像や音声の入力に対して,口形状,頭部ポーズ,感情表現を個別に操作することを可能にする。
EDTalkの有効性を示す実験を行った。
- 参考スコア(独自算出の注目度): 5.832760192773463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving disentangled control over multiple facial motions and accommodating diverse input modalities greatly enhances the application and entertainment of the talking head generation. This necessitates a deep exploration of the decoupling space for facial features, ensuring that they a) operate independently without mutual interference and b) can be preserved to share with different modal input, both aspects often neglected in existing methods. To address this gap, this paper proposes a novel Efficient Disentanglement framework for Talking head generation (EDTalk). Our framework enables individual manipulation of mouth shape, head pose, and emotional expression, conditioned on video or audio inputs. Specifically, we employ three lightweight modules to decompose the facial dynamics into three distinct latent spaces representing mouth, pose, and expression, respectively. Each space is characterized by a set of learnable bases whose linear combinations define specific motions. To ensure independence and accelerate training, we enforce orthogonality among bases and devise an efficient training strategy to allocate motion responsibilities to each space without relying on external knowledge. The learned bases are then stored in corresponding banks, enabling shared visual priors with audio input. Furthermore, considering the properties of each space, we propose an Audio-to-Motion module for audio-driven talking head synthesis. Experiments are conducted to demonstrate the effectiveness of EDTalk. We recommend watching the project website: https://tanshuai0219.github.io/EDTalk/
- Abstract(参考訳): 複数の顔の動きに対するゆがみ制御を達成し、多様な入力モダリティを収容することで、音声ヘッドジェネレーションの応用とエンターテイメントを大幅に向上させる。
このことは、顔の特徴の疎結合空間を深く探究し、それらを確実にするために必要なものである。
a)相互の干渉なしに独立して活動し、
b) 異なるモーダル入力と共有するために保存することができ、どちらの面も既存の方法では無視されることが多い。
このギャップに対処するため,本論文では,対話型ヘッドジェネレーション(EDTalk)のための新しい効率的な分散化フレームワークを提案する。
本フレームワークは,映像や音声の入力に対して,口形状,頭部ポーズ,感情表現を個別に操作することを可能にする。
具体的には、3つの軽量なモジュールを用いて、顔のダイナミクスをそれぞれ、口、ポーズ、表情を表す3つの異なる潜在空間に分解する。
各空間は、線形結合が特定の運動を定義する学習可能な基底の集合によって特徴づけられる。
独立性を確保し,訓練を加速するために,基地間の直交性を強制し,外部知識に頼ることなく,各空間に行動責任を割り当てる効率的な訓練戦略を考案する。
学習したベースは対応する銀行に格納され、オーディオ入力による視覚的事前共有を可能にする。
さらに,各空間の特性を考慮し,音声駆動音声ヘッド合成のためのAudio-to-Motionモジュールを提案する。
EDTalkの有効性を示す実験を行った。
プロジェクトのWebサイトを見ることをお勧めします。
関連論文リスト
- SPEAK: Speech-Driven Pose and Emotion-Adjustable Talking Head Generation [13.459396544300137]
本稿では,一般のトーキング・フェイス・ジェネレーションと区別する新しいワンショットトーキング・ヘッド・ジェネレーション・フレームワーク(SPEAK)を提案する。
顔の特徴を3つの潜在空間に分離するIRFD(Inter-Reconstructed Feature Disentanglement)モジュールを導入する。
次に、音声コンテンツと顔の潜時符号を1つの潜時空間に修正する顔編集モジュールを設計する。
論文 参考訳(メタデータ) (2024-05-12T11:41:44Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - That's What I Said: Fully-Controllable Talking Face Generation [16.570649208028343]
各顔が同じ動きパターンを持つが、異なる同一性を持つ正準空間を提案する。
2つ目は、アイデンティティ情報を排除しながら、動きに関連する特徴のみを表現するマルチモーダルモーション空間をナビゲートすることである。
提案手法では, 顔の属性を完全に制御し, 正確な唇のシンクロ化を行うことができる。
論文 参考訳(メタデータ) (2023-04-06T17:56:50Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。