論文の概要: StyleSync: High-Fidelity Generalized and Personalized Lip Sync in
Style-based Generator
- arxiv url: http://arxiv.org/abs/2305.05445v1
- Date: Tue, 9 May 2023 13:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 19:32:06.319067
- Title: StyleSync: High-Fidelity Generalized and Personalized Lip Sync in
Style-based Generator
- Title(参考訳): StyleSync: スタイルベースジェネレータにおける高忠実な一般化とパーソナライズされたリップシンク
- Authors: Jiazhi Guan, Zhanwang Zhang, Hang Zhou, Tianshu Hu, Kaisiyuan Wang,
Dongliang He, Haocheng Feng, Jingtuo Liu, Errui Ding, Ziwei Liu, Jingdong
Wang
- Abstract要約: 高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。
具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。
また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
- 参考スコア(独自算出の注目度): 85.40502725367506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in syncing lip movements with any audio waves,
current methods still struggle to balance generation quality and the model's
generalization ability. Previous studies either require long-term data for
training or produce a similar movement pattern on all subjects with low
quality. In this paper, we propose StyleSync, an effective framework that
enables high-fidelity lip synchronization. We identify that a style-based
generator would sufficiently enable such a charming property on both one-shot
and few-shot scenarios. Specifically, we design a mask-guided spatial
information encoding module that preserves the details of the given face. The
mouth shapes are accurately modified by audio through modulated convolutions.
Moreover, our design also enables personalized lip-sync by introducing style
space and generator refinement on only limited frames. Thus the identity and
talking style of a target person could be accurately preserved. Extensive
experiments demonstrate the effectiveness of our method in producing
high-fidelity results on a variety of scenes. Resources can be found at
https://hangz-nju-cuhk.github.io/projects/StyleSync.
- Abstract(参考訳): 近年の唇の動きと音波の同期は進歩しているが、現在の手法は生成品質とモデルの一般化能力のバランスをとるのに苦戦している。
以前の研究では、トレーニングのために長期データを必要とするか、品質の低い全ての被験者に同様の動きパターンを生成できる。
本稿では,高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。
スタイルベースのジェネレータは、ワンショットシナリオと少数ショットシナリオの両方において、このような魅力的な特性を十分に実現できると認識した。
具体的には、所定の顔の詳細を保存するマスク誘導空間情報符号化モジュールを設計する。
口の形状は、変調畳み込みによって音声によって正確に修正される。
さらに,限られたフレームのみにスタイル空間とジェネレータを改良することにより,パーソナライズされたリップシンクを実現する。
これにより、対象者の身元や発話スタイルを正確に保存することができる。
様々な場面で高忠実度結果の生成に本手法が有効であることを示す。
リソースはhttps://hangz-nju-cuhk.github.io/projects/StyleSyncにある。
関連論文リスト
- MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting [12.852715177163608]
MuseTalkは、変分オートエンコーダによって符号化された潜時空間でリップシンクターゲットを生成する。
オンラインのフェース生成をサポートする。256x256で30 FPS以上で、起動遅延は無視できる。
論文 参考訳(メタデータ) (2024-10-14T03:22:26Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - StyleLipSync: Style-based Personalized Lip-sync Video Generation [2.9914612342004503]
StyleLipSyncは、スタイルベースのパーソナライズされたリップ同期ビデオ生成モデルである。
我々のモデルはゼロショット設定でも正確なリップシンクビデオを生成することができる。
論文 参考訳(メタデータ) (2023-04-30T16:38:42Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。