論文の概要: PersonaTalk: Bring Attention to Your Persona in Visual Dubbing
- arxiv url: http://arxiv.org/abs/2409.05379v1
- Date: Mon, 9 Sep 2024 07:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 15:30:45.246903
- Title: PersonaTalk: Bring Attention to Your Persona in Visual Dubbing
- Title(参考訳): PersonaTalk: ビジュアルダビングでペルソナに注意を喚起する
- Authors: Longhao Zhang, Shuang Liang, Zhipeng Ge, Tianshu Hu,
- Abstract要約: 既存の方法は、話者の独特の発話スタイルを捉えたり、顔の詳細を保存したりするには不十分である。
本稿では、高忠実でパーソナライズされた視覚的ダビングのための注目ベースの2段階フレームワークであるPersonaTalkを紹介する。
総合的な実験とユーザスタディは、視覚的品質、リップシンク精度、ペルソナ保存の観点から、他の最先端手法に対する私たちの優位性を実証している。
- 参考スコア(独自算出の注目度): 10.943596570246331
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For audio-driven visual dubbing, it remains a considerable challenge to uphold and highlight speaker's persona while synthesizing accurate lip synchronization. Existing methods fall short of capturing speaker's unique speaking style or preserving facial details. In this paper, we present PersonaTalk, an attention-based two-stage framework, including geometry construction and face rendering, for high-fidelity and personalized visual dubbing. In the first stage, we propose a style-aware audio encoding module that injects speaking style into audio features through a cross-attention layer. The stylized audio features are then used to drive speaker's template geometry to obtain lip-synced geometries. In the second stage, a dual-attention face renderer is introduced to render textures for the target geometries. It consists of two parallel cross-attention layers, namely Lip-Attention and Face-Attention, which respectively sample textures from different reference frames to render the entire face. With our innovative design, intricate facial details can be well preserved. Comprehensive experiments and user studies demonstrate our advantages over other state-of-the-art methods in terms of visual quality, lip-sync accuracy and persona preservation. Furthermore, as a person-generic framework, PersonaTalk can achieve competitive performance as state-of-the-art person-specific methods. Project Page: https://grisoon.github.io/PersonaTalk/.
- Abstract(参考訳): 音声駆動型視覚ダビングでは、正確な唇同期を合成しながら話者のペルソナを保ち、強調することは非常に難しい。
既存の方法は、話者の独特の発話スタイルを捉えたり、顔の詳細を保存したりするには不十分である。
本稿では、高忠実でパーソナライズされた視覚的ダビングのための、幾何学的構成と顔レンダリングを含む注目に基づく2段階のフレームワークであるPersonaTalkを提案する。
第1段階では,音声特徴に発話スタイルを注入するスタイル認識型音声符号化モジュールを,クロスアテンション層を通じて提案する。
スタイリングされたオーディオ機能は、スピーカーのテンプレート形状を駆動し、リップ同期ジオメトリを取得するために使用される。
第2段階では、ターゲットジオメトリのテクスチャをレンダリングするために、デュアルアテンションフェースレンダラーが導入された。
これは2つの平行なクロスアテンション層、すなわちLip-AttentionとFace-Attentionで構成され、それぞれ異なる参照フレームからテクスチャをサンプリングして顔全体をレンダリングする。
私たちの革新的なデザインでは、複雑な顔の詳細を十分に保存することができる。
総合的な実験とユーザスタディは、視覚的品質、リップシンク精度、ペルソナ保存の観点から、他の最先端手法に対する私たちの優位性を実証している。
さらに、ペルソナTalkは、個人固有のフレームワークとして、最先端の個人固有の手法として、競争性能を達成することができる。
Project Page: https://grisoon.github.io/PersonaTalk/.com
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Identity-Preserving Realistic Talking Face Generation [4.848016645393023]
音声から現実的な顔のアニメーションを識別する手法を提案する。
教師なし学習を用いて顔のランドマークに点眼する。
また、LSGANを用いて、人物特有の顔のランドマークから顔のテクスチャを生成する。
論文 参考訳(メタデータ) (2020-05-25T18:08:28Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。