論文の概要: Controllable Face Synthesis with Semantic Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.12743v2
- Date: Tue, 30 Jul 2024 07:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 22:06:02.935379
- Title: Controllable Face Synthesis with Semantic Latent Diffusion Models
- Title(参考訳): 意味的潜在拡散モデルを用いた制御可能な顔合成
- Authors: Alex Ergasti, Claudio Ferrari, Tomaso Fontanini, Massimo Bertozzi, Andrea Prati,
- Abstract要約: 本稿では,人間の顔生成と編集のための新しい遅延拡散モデルアーキテクチャに基づくSISフレームワークを提案する。
提案システムは,SPADE正規化とクロスアテンションレイヤの両方を用いて形状とスタイル情報をマージし,人間の顔の各意味部分を正確に制御する。
- 参考スコア(独自算出の注目度): 6.438244172631555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic Image Synthesis (SIS) is among the most popular and effective techniques in the field of face generation and editing, thanks to its good generation quality and the versatility is brings along. Recent works attempted to go beyond the standard GAN-based framework, and started to explore Diffusion Models (DMs) for this task as these stand out with respect to GANs in terms of both quality and diversity. On the other hand, DMs lack in fine-grained controllability and reproducibility. To address that, in this paper we propose a SIS framework based on a novel Latent Diffusion Model architecture for human face generation and editing that is both able to reproduce and manipulate a real reference image and generate diversity-driven results. The proposed system utilizes both SPADE normalization and cross-attention layers to merge shape and style information and, by doing so, allows for a precise control over each of the semantic parts of the human face. This was not possible with previous methods in the state of the art. Finally, we performed an extensive set of experiments to prove that our model surpasses current state of the art, both qualitatively and quantitatively.
- Abstract(参考訳): セマンティック画像合成(SIS)は、優れた生成品質と汎用性によって、顔生成と編集の分野で最も人気があり、効果的な技術である。
最近の研究は、標準のGANベースのフレームワークを超えようと試み、品質と多様性の両面において、GANに対して際立った点から、このタスクのために拡散モデル(DM)を探求し始めた。
一方,DMは微粒化制御性や再現性に欠けていた。
そこで本研究では,人間の顔生成と編集のための新しい遅延拡散モデルアーキテクチャに基づくSISフレームワークを提案する。
提案システムは,SPADE正規化とクロスアテンションレイヤの両方を用いて形状とスタイル情報をマージし,人間の顔の各意味部分を正確に制御する。
これは最先端の従来の方法では不可能だった。
最後に、我々のモデルは、定性的かつ定量的に、現在の最先端技術を上回ることを証明するために、広範な実験を行った。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - JADE: Joint-aware Latent Diffusion for 3D Human Generative Modeling [62.77347895550087]
JADEは人体形状の変化を微粒化制御で学習する生成フレームワークである。
私たちの重要な洞察は、人体を骨格構造に分解する共同認識の潜伏表現です。
提案した分解条件下でのコヒーレントで可塑性な人体形状を生成するため,カスケードパイプラインも提案する。
論文 参考訳(メタデータ) (2024-12-29T14:18:35Z) - SHMT: Self-supervised Hierarchical Makeup Transfer via Latent Diffusion Models [29.430749386234414]
本稿では,遅延拡散モデルを用いた自己教師付き階層的メイクアップトランスファー(SHMT)手法を提案する。
SHMTは自己教師型の方法で動作し、擬似ペアデータの誤認から解放される。
様々なメイクスタイルに対応するため、階層的なテクスチャの詳細はラプラシアのピラミッドを通して不正確である。
論文 参考訳(メタデータ) (2024-12-15T05:29:07Z) - StyleDiT: A Unified Framework for Diverse Child and Partner Faces Synthesis with Style Latent Diffusion Transformer [11.83733187403255]
StyleDiTは、StyleGANの強みと拡散モデルを統合する新しいフレームワークで、高品質で多様な親和性面を生成する。
本稿では,Trait Guidance(RTG)機構を導入し,影響条件の独立制御を可能にする。
アプリケーションを探索されていない領域に拡張し、子供の画像と1人の親のイメージを使用してパートナーの顔画像を予測する。
論文 参考訳(メタデータ) (2024-12-14T10:47:17Z) - LDFaceNet: Latent Diffusion-based Network for High-Fidelity Deepfake Generation [6.866014367868788]
本稿ではLDFaceNet(Latent Diffusion based Face Swapping Network)と呼ばれる新しい顔交換モジュールを提案する。
これは、条件付き認知過程に顔分割と顔認識モジュールを利用するガイド付き潜伏拡散モデルに基づいている。
本研究の結果から,提案手法は極めて現実的でコヒーレントな画像を生成することができることが示された。
論文 参考訳(メタデータ) (2024-08-04T16:09:04Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models [13.019535928387702]
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
定性的かつ定量的な結果は,難解なシナリオ下で提案したPCDMの一貫性と光現実性を示すものである。
論文 参考訳(メタデータ) (2023-10-10T05:13:17Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Multimodal-driven Talking Face Generation via a Unified Diffusion-based
Generator [29.58245990622227]
マルチモーダル駆動型トーキングフェイス生成(マルチモーダルドリブントーキングフェイスジェネレーション)とは、画像や動画から移動された、あるいはテキストやオーディオから推定される、与えられたポーズ、表情、および視線で肖像画をアニメーションすることを指す。
既存の手法はテキスト・モーダルの可能性を無視し、ジェネレータは主に不安定なGANフレームワークと結合したソース指向の機能パラダイムに従う。
不安定なシーソースタイルの最適化が不要な新しいパラダイムを導出し、単純で安定で効果的なトレーニングと推論スキームを導出する。
論文 参考訳(メタデータ) (2023-05-04T07:01:36Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。