論文の概要: LDFaceNet: Latent Diffusion-based Network for High-Fidelity Deepfake Generation
- arxiv url: http://arxiv.org/abs/2408.02078v1
- Date: Sun, 4 Aug 2024 16:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 15:15:41.034305
- Title: LDFaceNet: Latent Diffusion-based Network for High-Fidelity Deepfake Generation
- Title(参考訳): LDFaceNet:高忠実ディープフェイク生成のための潜時拡散型ネットワーク
- Authors: Dwij Mehta, Aditya Mehta, Pratik Narang,
- Abstract要約: 本稿ではLDFaceNet(Latent Diffusion based Face Swapping Network)と呼ばれる新しい顔交換モジュールを提案する。
これは、条件付き認知過程に顔分割と顔認識モジュールを利用するガイド付き潜伏拡散モデルに基づいている。
本研究の結果から,提案手法は極めて現実的でコヒーレントな画像を生成することができることが示された。
- 参考スコア(独自算出の注目度): 6.866014367868788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, there has been tremendous progress in the domain of synthetic media generation. This is mainly due to the powerful methods based on generative adversarial networks (GANs). Very recently, diffusion probabilistic models, which are inspired by non-equilibrium thermodynamics, have taken the spotlight. In the realm of image generation, diffusion models (DMs) have exhibited remarkable proficiency in producing both realistic and heterogeneous imagery through their stochastic sampling procedure. This paper proposes a novel facial swapping module, termed as LDFaceNet (Latent Diffusion based Face Swapping Network), which is based on a guided latent diffusion model that utilizes facial segmentation and facial recognition modules for a conditioned denoising process. The model employs a unique loss function to offer directional guidance to the diffusion process. Notably, LDFaceNet can incorporate supplementary facial guidance for desired outcomes without any retraining. To the best of our knowledge, this represents the first application of the latent diffusion model in the face-swapping task without prior training. The results of this study demonstrate that the proposed method can generate extremely realistic and coherent images by leveraging the potential of the diffusion model for facial swapping, thereby yielding superior visual outcomes and greater diversity.
- Abstract(参考訳): 過去10年間で、合成メディア生成の領域は飛躍的な進歩を遂げた。
これは主にGAN(Generative Adversarial Network)に基づく強力な手法が原因である。
最近では、非平衡熱力学にインスパイアされた拡散確率モデルが注目を浴びている。
画像生成の分野では,拡散モデル (DM) は, 確率的サンプリング法により, 現実的および異種画像の生成に顕著な習熟性を示した。
本稿では,表情分割と顔認識モジュールを条件付き認知プロセスに用いるガイド付き潜時拡散モデルに基づいて,LDFaceNet(Latent Diffusion based Face Swapping Network)と呼ばれる新しい顔交換モジュールを提案する。
モデルは拡散過程への方向案内を提供するためにユニークな損失関数を用いる。
特にLDFaceNetは、リトレーニングなしに、望ましい結果のために補足的な顔のガイダンスを組み込むことができる。
我々の知る限り、これは事前のトレーニングを伴わずにフェイススワッピングタスクにおける潜伏拡散モデルの最初の応用である。
本研究は,顔のスワップに拡散モデルのポテンシャルを生かして,極めてリアルでコヒーレントな画像を生成することができることを示す。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models [79.65289816077629]
拡散型3次元顔アバター生成モデルFitDiffを提案する。
本モデルでは,「近距離」2次元顔画像から抽出したアイデンティティ埋め込みを利用して,再現性のある顔アバターを高精度に生成する。
FitDiffは、顔認識の埋め込みを前提とした最初の3D LDMであり、一般的なレンダリングエンジンで使用可能な、ライティング可能な人間のアバターを再構築する。
論文 参考訳(メタデータ) (2023-12-07T17:35:49Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。