論文の概要: CPNet: Exploiting CLIP-based Attention Condenser and Probability Map
Guidance for High-fidelity Talking Face Generation
- arxiv url: http://arxiv.org/abs/2305.13962v1
- Date: Tue, 23 May 2023 11:40:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:48:24.619231
- Title: CPNet: Exploiting CLIP-based Attention Condenser and Probability Map
Guidance for High-fidelity Talking Face Generation
- Title(参考訳): CPNet:CLIPベースのアテンションコンデンサの爆発と高忠実な会話顔生成のための確率マップガイダンス
- Authors: Jingning Xu, Benlai Tang, Mingjie Wang, Minghao Li, Meirong Ma
- Abstract要約: CLIPベースのAttention and Probability Map Guided Network (CPNet)は,高忠実度顔画像の推測のために微妙に設計されている。
確率空間の整合性を保証し,ランドマークの曖昧さを抑えるために,顔のランドマークの密度マップを創造的に提案する。
広く使用されているベンチマークデータセットの実験は、画像とリップシンクの品質の観点から、CPNetの最先端性を示している。
- 参考スコア(独自算出の注目度): 5.664790222530319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, talking face generation has drawn ever-increasing attention from
the research community in computer vision due to its arduous challenges and
widespread application scenarios, e.g. movie animation and virtual anchor.
Although persevering efforts have been undertaken to enhance the fidelity and
lip-sync quality of generated talking face videos, there is still large room
for further improvements of synthesis quality and efficiency. Actually, these
attempts somewhat ignore the explorations of fine-granularity feature
extraction/integration and the consistency between probability distributions of
landmarks, thereby recurring the issues of local details blurring and degraded
fidelity. To mitigate these dilemmas, in this paper, a novel CLIP-based
Attention and Probability Map Guided Network (CPNet) is delicately designed for
inferring high-fidelity talking face videos. Specifically, considering the
demands of fine-grained feature recalibration, a clip-based attention condenser
is exploited to transfer knowledge with rich semantic priors from the
prevailing CLIP model. Moreover, to guarantee the consistency in probability
space and suppress the landmark ambiguity, we creatively propose the density
map of facial landmark as auxiliary supervisory signal to guide the landmark
distribution learning of generated frame. Extensive experiments on the
widely-used benchmark dataset demonstrate the superiority of our CPNet against
state of the arts in terms of image and lip-sync quality. In addition, a cohort
of studies are also conducted to ablate the impacts of the individual pivotal
components.
- Abstract(参考訳): 近年,映画アニメーションや仮想アンカーなど,コンピュータビジョンの難題や幅広い応用シナリオにより,会話による顔生成が研究コミュニティから注目を集めている。
生成した音声音声の忠実度とリップシンク品質を向上させるため,永続的な努力が続けられているが,合成品質と効率性をさらに向上する余地は依然として大きい。
実際、これらの試みは、細粒度特徴抽出/積分の探索やランドマークの確率分布の整合性を無視し、局所的な詳細の曖昧さと劣化した忠実さの問題を繰り返す。
本稿では,これらのジレンマを緩和するために,CLIPをベースとした新しいCPNet(Attention and Probability Map Guided Network)を提案する。
具体的には、細粒度機能再構成の要求を考慮し、クリップベースのアテンションコンデンサを用いて、一般的なCLIPモデルからリッチセマンティックプリミティブで知識を伝達する。
さらに,確率空間の一貫性を保証し,ランドマーク曖昧さを抑制するため,生成したフレームのランドマーク分布学習を導くために,補助監督信号として顔ランドマークの密度マップを創造的に提案する。
広く使用されているベンチマークデータセットに対する大規模な実験は、画像とリップシンクの品質の観点から、CPNetの最先端性を示している。
さらに、個々の主成分の影響を緩和する研究のコホートも実施されている。
関連論文リスト
- Enhancing Conditional Image Generation with Explainable Latent Space Manipulation [0.0]
本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。
そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。
この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
論文 参考訳(メタデータ) (2024-08-29T03:12:04Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Toward Motion Robustness: A masked attention regularization framework in remote photoplethysmography [5.743550396843244]
MAR-rはROIローカライゼーションと複雑なモーションアーティファクトの影響を統合するフレームワークである。
MAR-rは、顔クリップのセマンティック一貫性を捉えるために、マスクされた注意規則化機構をrフィールドに採用している。
また、モデルが不正確なROIに過度に適合し、その後パフォーマンスが低下するのを防ぐために、マスキング技術を採用している。
論文 参考訳(メタデータ) (2024-07-09T08:25:30Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - Robust and Precise Facial Landmark Detection by Self-Calibrated Pose
Attention Network [73.56802915291917]
より堅牢で正確な顔のランドマーク検出を実現するための半教師付きフレームワークを提案する。
より効果的な顔形状制約をモデル化するために,境界対応ランドマーク強度(BALI)フィールドを提案する。
自己キャリブレーション・ポース・アテンション(SCPA)モデルは、中間的監督を強制する自己学習型目標関数を提供するように設計されている。
論文 参考訳(メタデータ) (2021-12-23T02:51:08Z) - MC-LCR: Multi-modal contrastive classification by locally correlated
representations for effective face forgery detection [11.124150983521158]
局所的関連表現を用いたマルチモーダルコントラスト分類法を提案する。
我々のMC-LCRは、空間領域と周波数領域の両方から真偽顔と偽顔の暗黙の局所的不一致を増幅することを目的としている。
我々は最先端の性能を達成し,本手法の堅牢性と一般化を実証する。
論文 参考訳(メタデータ) (2021-10-07T09:24:12Z) - A Unified Framework for Biphasic Facial Age Translation with
Noisy-Semantic Guided Generative Adversarial Networks [54.57520952117123]
バイファシックな顔の年齢変換は、任意の年齢における入力顔の出現を予測することを目的としている。
本稿では,ノイズ・セマンティック誘導合成対向ネットワークを用いた二相性顔面年齢変換のための統一的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-15T15:30:35Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Coarse- and Fine-grained Attention Network with Background-aware Loss
for Crowd Density Map Estimation [2.690502103971799]
CFANetは、高品質な群衆密度マップを生成する新しい方法であり、人を数える。
集合領域認識器 (CRR) と密度レベル推定器 (DLE) を結合して, 粗大から細大に進行する注意機構を考案する。
提案手法は,従来の最先端手法をカウント精度で上回るだけでなく,密度マップの画質の向上や,誤認識率の低減にも寄与する。
論文 参考訳(メタデータ) (2020-11-07T08:05:54Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z) - Learning Oracle Attention for High-fidelity Face Completion [121.72704525675047]
U-Net構造に基づく顔補完のための包括的フレームワークを設計する。
複数のスケールで顔のテクスチャ間の相関関係を効率よく学習する双対空間アテンションモジュールを提案する。
顔成分の位置を事前の知識として捉え,これらの領域に複数識別器を課す。
論文 参考訳(メタデータ) (2020-03-31T01:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。