Fugu-MT 論文翻訳(概要): Towards Controllable Face Generation with Semantic Latent Diffusion Models

論文の概要: Towards Controllable Face Generation with Semantic Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2403.12743v1
Date: Tue, 19 Mar 2024 14:02:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 14:03:58.999628
Title: Towards Controllable Face Generation with Semantic Latent Diffusion Models
Title（参考訳）: セマンティック潜伏拡散モデルによる制御可能な顔生成に向けて
Authors: Alex Ergasti, Claudio Ferrari, Tomaso Fontanini, Massimo Bertozzi, Andrea Prati,
Abstract要約: 本稿では,人間の顔生成と編集のための新しい遅延拡散モデルアーキテクチャに基づくSISフレームワークを提案する。提案システムは,SPADE正規化とクロスアテンションレイヤの両方を用いて形状とスタイル情報をマージし,人間の顔の各意味部分を正確に制御する。
参考スコア（独自算出の注目度）: 6.438244172631555
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic Image Synthesis (SIS) is among the most popular and effective techniques in the field of face generation and editing, thanks to its good generation quality and the versatility is brings along. Recent works attempted to go beyond the standard GAN-based framework, and started to explore Diffusion Models (DMs) for this task as these stand out with respect to GANs in terms of both quality and diversity. On the other hand, DMs lack in fine-grained controllability and reproducibility. To address that, in this paper we propose a SIS framework based on a novel Latent Diffusion Model architecture for human face generation and editing that is both able to reproduce and manipulate a real reference image and generate diversity-driven results. The proposed system utilizes both SPADE normalization and cross-attention layers to merge shape and style information and, by doing so, allows for a precise control over each of the semantic parts of the human face. This was not possible with previous methods in the state of the art. Finally, we performed an extensive set of experiments to prove that our model surpasses current state of the art, both qualitatively and quantitatively.
Abstract（参考訳）: セマンティック画像合成(SIS)は、優れた生成品質と汎用性によって、顔生成と編集の分野で最も人気があり、効果的な技術である。最近の研究は、標準のGANベースのフレームワークを超えようと試み、品質と多様性の両面において、GANに対して際立った点から、このタスクのために拡散モデル(DM)を探求し始めた。一方,DMは微粒化制御性や再現性に欠けていた。そこで本研究では,人間の顔生成と編集のための新しい遅延拡散モデルアーキテクチャに基づくSISフレームワークを提案する。提案システムは,SPADE正規化とクロスアテンションレイヤの両方を用いて形状とスタイル情報をマージし,人間の顔の各意味部分を正確に制御する。これは最先端の従来の方法では不可能だった。最後に、我々のモデルは、定性的かつ定量的に、現在の最先端技術を上回ることを証明するために、広範な実験を行った。

関連論文リスト

Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation [55.2480439325792]
自律運転や医用画像解析などの安全クリティカルなアプリケーションは、厳格なテストのために広範なマルチモーダルデータを必要とする。本研究は, 自律運転における合成データ生成法と, 医療画像解析法であるMObIとAnydoorMedの2つの新しい手法を紹介する。
論文参考訳（メタデータ） (2025-07-30T19:43:47Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Bringing Diversity from Diffusion Models to Semantic-Guided Face Asset Generation [10.402456492958457]
本研究の目的は、意味的に制御可能な生成ネットワークが、デジタル顔モデリングプロセスの制御を強化できることを実証することである。本稿では,事前学習した拡散モデルを用いて,高品質な3次元顔データベースを作成する新しいデータ生成パイプラインを提案する。高品質な顔アセットを作成・編集するための包括的システムを導入する。
論文参考訳（メタデータ） (2025-04-21T17:38:50Z)
Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文参考訳（メタデータ） (2025-03-19T20:50:10Z)
JADE: Joint-aware Latent Diffusion for 3D Human Generative Modeling [62.77347895550087]
JADEは人体形状の変化を微粒化制御で学習する生成フレームワークである。私たちの重要な洞察は、人体を骨格構造に分解する共同認識の潜伏表現です。提案した分解条件下でのコヒーレントで可塑性な人体形状を生成するため,カスケードパイプラインも提案する。
論文参考訳（メタデータ） (2024-12-29T14:18:35Z)
SHMT: Self-supervised Hierarchical Makeup Transfer via Latent Diffusion Models [29.430749386234414]
本稿では,遅延拡散モデルを用いた自己教師付き階層的メイクアップトランスファー(SHMT)手法を提案する。 SHMTは自己教師型の方法で動作し、擬似ペアデータの誤認から解放される。様々なメイクスタイルに対応するため、階層的なテクスチャの詳細はラプラシアのピラミッドを通して不正確である。
論文参考訳（メタデータ） (2024-12-15T05:29:07Z)
StyleDiT: A Unified Framework for Diverse Child and Partner Faces Synthesis with Style Latent Diffusion Transformer [11.83733187403255]
StyleDiTは、StyleGANの強みと拡散モデルを統合する新しいフレームワークで、高品質で多様な親和性面を生成する。本稿では,Trait Guidance(RTG)機構を導入し,影響条件の独立制御を可能にする。アプリケーションを探索されていない領域に拡張し、子供の画像と1人の親のイメージを使用してパートナーの顔画像を予測する。
論文参考訳（メタデータ） (2024-12-14T10:47:17Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
LDFaceNet: Latent Diffusion-based Network for High-Fidelity Deepfake Generation [6.866014367868788]
本稿ではLDFaceNet(Latent Diffusion based Face Swapping Network)と呼ばれる新しい顔交換モジュールを提案する。これは、条件付き認知過程に顔分割と顔認識モジュールを利用するガイド付き潜伏拡散モデルに基づいている。本研究の結果から,提案手法は極めて現実的でコヒーレントな画像を生成することができることが示された。
論文参考訳（メタデータ） (2024-08-04T16:09:04Z)
JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文参考訳（メタデータ） (2023-12-20T08:05:57Z)
Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文参考訳（メタデータ） (2023-12-07T14:55:13Z)
Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models [13.019535928387702]
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。定性的かつ定量的な結果は,難解なシナリオ下で提案したPCDMの一貫性と光現実性を示すものである。
論文参考訳（メタデータ） (2023-10-10T05:13:17Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
Multimodal-driven Talking Face Generation via a Unified Diffusion-based Generator [29.58245990622227]
マルチモーダル駆動型トーキングフェイス生成(マルチモーダルドリブントーキングフェイスジェネレーション)とは、画像や動画から移動された、あるいはテキストやオーディオから推定される、与えられたポーズ、表情、および視線で肖像画をアニメーションすることを指す。既存の手法はテキスト・モーダルの可能性を無視し、ジェネレータは主に不安定なGANフレームワークと結合したソース指向の機能パラダイムに従う。不安定なシーソースタイルの最適化が不要な新しいパラダイムを導出し、単純で安定で効果的なトレーニングと推論スキームを導出する。
論文参考訳（メタデータ） (2023-05-04T07:01:36Z)
Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文参考訳（メタデータ） (2023-04-20T17:59:02Z)
Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文参考訳（メタデータ） (2022-12-18T11:42:51Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。