論文の概要: G4G:A Generic Framework for High Fidelity Talking Face Generation with
Fine-grained Intra-modal Alignment
- arxiv url: http://arxiv.org/abs/2402.18122v1
- Date: Wed, 28 Feb 2024 07:23:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:54:07.114423
- Title: G4G:A Generic Framework for High Fidelity Talking Face Generation with
Fine-grained Intra-modal Alignment
- Title(参考訳): G4G:細粒度モード内アライメントを用いた高忠実発話顔生成のためのジェネリックフレームワーク
- Authors: Juan Zhang, Jiahao Chen, Cheng Wang, Zhiwang Yu, Tangquan Qi, Di Wu
- Abstract要約: 本稿では,モーダル内アライメントを微粒化した高忠実度音声顔生成のための汎用フレームワークであるG4Gを紹介する。
G4Gは、与えられた音声のトーンやボリュームに関わらず、高度に同期された唇の動きを生成しながら、オリジナルビデオの忠実度を再現することができる。
- 参考スコア(独自算出の注目度): 16.31215990847707
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite numerous completed studies, achieving high fidelity talking face
generation with highly synchronized lip movements corresponding to arbitrary
audio remains a significant challenge in the field. The shortcomings of
published studies continue to confuse many researchers. This paper introduces
G4G, a generic framework for high fidelity talking face generation with
fine-grained intra-modal alignment. G4G can reenact the high fidelity of
original video while producing highly synchronized lip movements regardless of
given audio tones or volumes. The key to G4G's success is the use of a diagonal
matrix to enhance the ordinary alignment of audio-image intra-modal features,
which significantly increases the comparative learning between positive and
negative samples. Additionally, a multi-scaled supervision module is introduced
to comprehensively reenact the perceptional fidelity of original video across
the facial region while emphasizing the synchronization of lip movements and
the input audio. A fusion network is then used to further fuse the facial
region and the rest. Our experimental results demonstrate significant
achievements in reenactment of original video quality as well as highly
synchronized talking lips. G4G is an outperforming generic framework that can
produce talking videos competitively closer to ground truth level than current
state-of-the-art methods.
- Abstract(参考訳): 多くの研究が完了したにもかかわらず、任意の音声に対応する高度に同期した唇の動きで高忠実な話し顔生成を達成することは、この分野において重要な課題である。
出版研究の欠点は多くの研究者を混乱させ続けている。
本稿では,モーダル内アライメントを微粒化した高忠実度音声顔生成のための汎用フレームワークG4Gを紹介する。
G4Gは、与えられた音声のトーンやボリュームに関わらず、高度に同期された唇の動きを生成しながら、オリジナルビデオの忠実度を再現することができる。
g4gの成功の鍵は、正と負のサンプル間の比較学習を著しく増加させるオーディオ画像内特徴の通常のアライメントを強化するために対角行列を使用することである。
さらに、唇の動きと入力音声の同期を強調しつつ、顔領域全体にわたるオリジナル映像の知覚忠実度を包括的に再現するマルチスケール監視モジュールを導入する。
次に、融合ネットワークを使用して、顔領域と残りをさらに融合させる。
実験結果から,映像品質の再現と高調波発声唇の再現に有意な成果が得られた。
G4Gは、現在の最先端の手法よりも、地上の真理レベルに競争力のあるビデオを生成することができる、優れた汎用フレームワークである。
関連論文リスト
- MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting [12.852715177163608]
MuseTalkは、変分オートエンコーダによって符号化された潜時空間でリップシンクターゲットを生成する。
オンラインのフェース生成をサポートする。256x256で30 FPS以上で、起動遅延は無視できる。
論文 参考訳(メタデータ) (2024-10-14T03:22:26Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation [22.159117464397806]
本稿では2段階拡散モデルを提案する。
第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。
第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
論文 参考訳(メタデータ) (2024-08-03T10:19:38Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - RADIO: Reference-Agnostic Dubbing Video Synthesis [12.872464331012544]
単一の参照画像だけを考えると、意味のあるアイデンティティ属性を抽出することがさらに困難になる。
参照画像のポーズや表現に関わらず、高品質な「ビデオ」を提供するために設計されたフレームワークであるRADIOを紹介する。
実験の結果,RADIOは忠実度を損なうことなく高い同期性を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-05T04:56:18Z) - A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony
in Talking Head Generation [0.0]
音声と頭部の動きの短期的・長期的相関をよりよく扱うために,マルチスケールの音声-視覚同期損失とマルチスケールの自己回帰的GANを提案する。
我々のジェネレータは顔のランドマーク領域で動作しており、これは標準的な低次元の頭部表現である。
論文 参考訳(メタデータ) (2023-07-04T08:29:59Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。