Fugu-MT 論文翻訳(概要): StyleDiT: A Unified Framework for Diverse Child and Partner Faces Synthesis with Style Latent Diffusion Transformer

論文の概要: StyleDiT: A Unified Framework for Diverse Child and Partner Faces Synthesis with Style Latent Diffusion Transformer

arxiv url: http://arxiv.org/abs/2412.10785v1
Date: Sat, 14 Dec 2024 10:47:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.81243
Title: StyleDiT: A Unified Framework for Diverse Child and Partner Faces Synthesis with Style Latent Diffusion Transformer
Title（参考訳）: StyleDiT:Stylent Diffusion Transformerを用いた子どもとパートナーの顔合成のための統一フレームワーク
Authors: Pin-Yen Chiu, Dai-Jie Wu, Po-Hsun Chu, Chia-Hsuan Hsu, Hsiang-Chen Chiu, Chih-Yu Wang, Jun-Cheng Chen,
Abstract要約: StyleDiTは、StyleGANの強みと拡散モデルを統合する新しいフレームワークで、高品質で多様な親和性面を生成する。本稿では,Trait Guidance(RTG)機構を導入し,影響条件の独立制御を可能にする。アプリケーションを探索されていない領域に拡張し、子供の画像と1人の親のイメージを使用してパートナーの顔画像を予測する。
参考スコア（独自算出の注目度）: 11.83733187403255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Kinship face synthesis is a challenging problem due to the scarcity and low quality of the available kinship data. Existing methods often struggle to generate descendants with both high diversity and fidelity while precisely controlling facial attributes such as age and gender. To address these issues, we propose the Style Latent Diffusion Transformer (StyleDiT), a novel framework that integrates the strengths of StyleGAN with the diffusion model to generate high-quality and diverse kinship faces. In this framework, the rich facial priors of StyleGAN enable fine-grained attribute control, while our conditional diffusion model is used to sample a StyleGAN latent aligned with the kinship relationship of conditioning images by utilizing the advantage of modeling complex kinship relationship distribution. StyleGAN then handles latent decoding for final face generation. Additionally, we introduce the Relational Trait Guidance (RTG) mechanism, enabling independent control of influencing conditions, such as each parent's facial image. RTG also enables a fine-grained adjustment between the diversity and fidelity in synthesized faces. Furthermore, we extend the application to an unexplored domain: predicting a partner's facial images using a child's image and one parent's image within the same framework. Extensive experiments demonstrate that our StyleDiT outperforms existing methods by striking an excellent balance between generating diverse and high-fidelity kinship faces.
Abstract（参考訳）: キンシップフェース合成は、利用可能なキンシップデータの不足と低品質のため、難しい問題である。既存の方法は、年齢や性別などの顔の特徴を正確に制御しながら、高い多様性と忠実さの両方で子孫を生成するのに苦労することが多い。これらの問題に対処するために,StyleDiT(StyleDiT)を提案する。StyleDiTは,StyleGANの強度を拡散モデルと統合し,高品質で多様な親和性面を生成する新しいフレームワークである。この枠組みでは,StyleGANの豊富な顔前駆体により微粒な属性制御が可能であり,条件拡散モデルを用いて複雑な血縁関係分布をモデル化することにより,条件付き画像の血縁関係に整合したStyleGAN潜伏剤をサンプリングする。その後、StyleGANはファイナルフェース生成のための潜在デコードを処理する。さらに、親の顔画像などの影響条件を独立に制御できるリレーショナル・トラクション・ガイダンス(RTG)機構を導入する。 RTGはまた、合成顔の多様性と忠実度を微調整することを可能にする。さらに、アプリケーションを探索されていない領域に拡張し、同じフレームワーク内で、子供の画像と1人の親のイメージを使用してパートナーの顔画像を予測する。広範囲な実験により、我々のStyleDiTは、多種多様と高忠実な親和性の顔を生成するのに優れたバランスをとることで、既存の方法よりも優れていることが示されています。

関連論文リスト

Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文参考訳（メタデータ） (2025-03-19T20:50:10Z)
HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文参考訳（メタデータ） (2024-11-27T12:30:24Z)
Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文参考訳（メタデータ） (2024-09-11T13:43:53Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
Controllable Face Synthesis with Semantic Latent Diffusion Models [6.438244172631555]
本稿では,人間の顔生成と編集のための新しい遅延拡散モデルアーキテクチャに基づくSISフレームワークを提案する。提案システムは,SPADE正規化とクロスアテンションレイヤの両方を用いて形状とスタイル情報をマージし,人間の顔の各意味部分を正確に制御する。
論文参考訳（メタデータ） (2024-03-19T14:02:13Z)
Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation [1.104121146441257]
深層生成モデルは、現実的な顔の画像を生成する素晴らしい結果を示している。 GANはセマンティックマスクで条件付きで高品質で高忠実な画像を生成することができたが、それでも出力を多様化する能力は欠けていた。本稿では,属性とセマンティックマスクの両方を利用した多条件拡散モデルの提案を行い,高品質で制御可能な顔画像を生成する。
論文参考訳（メタデータ） (2023-06-01T17:16:37Z)
GANDiffFace: Controllable Generation of Synthetic Datasets for Face Recognition with Realistic Variations [2.7467281625529134]
本研究は,顔認識のための合成データセット生成のための新しいフレームワークであるGANDiffFaceを紹介する。 GANDiffFaceは、GAN(Generative Adversarial Networks)とDiffusionモデルのパワーを組み合わせて、既存の合成データセットの制限を克服する。
論文参考訳（メタデータ） (2023-05-31T15:49:12Z)
StyleSwap: Style-Based Generator Empowers Robust Face Swapping [90.05775519962303]
StyleSwapという簡潔で効果的なフレームワークを紹介します。私たちの中核となる考え方は、スタイルベースのジェネレータを活用して、高忠実で堅牢な顔交換を可能にすることです。最小限の変更だけで、StyleGAN2アーキテクチャはソースとターゲットの両方から望まれる情報をうまく処理できる。
論文参考訳（メタデータ） (2022-09-27T16:35:16Z)
Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。 CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文参考訳（メタデータ） (2022-07-21T22:19:17Z)
High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文参考訳（メタデータ） (2022-03-30T00:33:08Z)
Cluster-guided Image Synthesis with Unconditional Models [41.89334167530054]
本研究は、教師なし方式でよく訓練されたGANを活用することにより、制御可能な画像生成に焦点を当てる。クラスタ割り当てを条件付けすることで、提案手法は生成された画像の意味クラスを制御することができる。顔(CelebA-HQとFFHQ)、動物(Imagenet)、オブジェクト(LSUN)に対するアプローチの有効性を,異なる事前学習生成モデルを用いて示す。
論文参考訳（メタデータ） (2021-12-24T02:18:34Z)
InterFaceGAN: Interpreting the Disentangled Face Representation Learned by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文参考訳（メタデータ） (2020-05-18T18:01:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。