Fugu-MT 論文翻訳(概要): Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation

論文の概要: Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation

arxiv url: http://arxiv.org/abs/2306.00914v3
Date: Wed, 27 Sep 2023 18:13:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 20:27:51.567906
Title: Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation
Title（参考訳）: 顔生成のための属性と意味マスクによる条件付き拡散モデル
Authors: Nico Giambi and Giuseppe Lisanti
Abstract要約: 深層生成モデルは、現実的な顔の画像を生成する素晴らしい結果を示している。 GANはセマンティックマスクで条件付きで高品質で高忠実な画像を生成することができたが、それでも出力を多様化する能力は欠けていた。本稿では,属性とセマンティックマスクの両方を利用した多条件拡散モデルの提案を行い,高品質で制御可能な顔画像を生成する。
参考スコア（独自算出の注目度）: 1.104121146441257
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep generative models have shown impressive results in generating realistic images of faces. GANs managed to generate high-quality, high-fidelity images when conditioned on semantic masks, but they still lack the ability to diversify their output. Diffusion models partially solve this problem and are able to generate diverse samples given the same condition. In this paper, we propose a multi-conditioning approach for diffusion models via cross-attention exploiting both attributes and semantic masks to generate high-quality and controllable face images. We also studied the impact of applying perceptual-focused loss weighting into the latent space instead of the pixel space. Our method extends the previous approaches by introducing conditioning on more than one set of features, guaranteeing a more fine-grained control over the generated face images. We evaluate our approach on the CelebA-HQ dataset, and we show that it can generate realistic and diverse samples while allowing for fine-grained control over multiple attributes and semantic regions. Additionally, we perform an ablation study to evaluate the impact of different conditioning strategies on the quality and diversity of the generated images.
Abstract（参考訳）: 深層生成モデルは、現実的な顔の画像を生成する素晴らしい結果を示している。 GANはセマンティックマスクで条件付きで高品質で高忠実な画像を生成することができたが、出力を多様化する能力に欠けていた。拡散モデルはこの問題を部分的に解決し、同じ条件で様々なサンプルを生成することができる。本稿では,属性とセマンティックマスクの両方を利用して,高画質かつ制御可能な顔画像を生成することで,拡散モデルのマルチコンディショニング手法を提案する。また,画素空間ではなく潜在空間に知覚中心の損失重み付けを適用することの影響について検討した。提案手法は,複数の特徴セットに条件付けを導入し,生成した顔画像のよりきめ細かい制御を保証することによって,従来のアプローチを拡張した。 celeba-hqデータセットのアプローチを評価し,複数の属性とセマンティクス領域のきめ細かい制御を可能にしながら,現実的な多種多様なサンプルを生成することができることを示した。さらに,異なる条件付け戦略が生成画像の品質と多様性に与える影響を評価するためのアブレーション研究を行った。

関連論文リスト

Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文参考訳（メタデータ） (2025-03-19T20:50:10Z)
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
Diffusion Prism: Enhancing Diversity and Morphology Consistency in Mask-to-Image Diffusion [4.0301593672451]
Diffusion Prismは、バイナリマスクを現実的で多様なサンプルに変換する、トレーニング不要のフレームワークである。少量の人工ノイズが画像デノゲーションプロセスに大きく役立つことを探る。
論文参考訳（メタデータ） (2025-01-01T20:04:25Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
MCGM: Mask Conditional Text-to-Image Generative Model [1.909929271850469]
条件付きマスクテキスト・画像生成モデル(MCGM)を提案する。本モデルでは,複数の被写体を持つ単一画像を用いた新たなシーン生成において,Break-a-scene [1]モデルの成功に基づいて構築した。この追加的なレベルの制御を導入することで、MCGMは1つの画像から学んだ1つ以上の被験者に対する特定のポーズを生成する、柔軟で直感的なアプローチを提供する。
論文参考訳（メタデータ） (2024-10-01T08:13:47Z)
DiffusionFace: Towards a Comprehensive Dataset for Diffusion-Based Face Forgery Analysis [71.40724659748787]
DiffusionFaceは、最初の拡散ベースのフェイスフォージェリーデータセットである。非条件およびテキストガイドの顔画像生成、Img2Img、Inpaint、Diffusionベースの顔交換アルゴリズムなど、さまざまなフォージェリーカテゴリをカバーする。重要なメタデータと、評価のための実世界のインターネットソースの偽顔画像データセットを提供する。
論文参考訳（メタデータ） (2024-03-27T11:32:44Z)
Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文参考訳（メタデータ） (2023-12-18T15:25:23Z)
Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文参考訳（メタデータ） (2023-11-28T21:14:02Z)
Controllable Inversion of Black-Box Face Recognition Models via Diffusion [8.620807177029892]
我々は,事前学習した顔認識モデルの潜在空間を,完全なモデルアクセスなしで反転させる作業に取り組む。本研究では,条件付き拡散モデル損失が自然発生し,逆分布から効果的にサンプル化できることを示す。本手法は,生成過程を直感的に制御できる最初のブラックボックス顔認識モデル逆変換法である。
論文参考訳（メタデータ） (2023-03-23T03:02:09Z)
Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。 CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文参考訳（メタデータ） (2022-07-21T22:19:17Z)
On Conditioning the Input Noise for Controlled Image Generation with Diffusion Models [27.472482893004862]
条件付き画像生成は、画像編集、ストック写真の生成、および3Dオブジェクト生成におけるいくつかのブレークスルーの道を開いた。本研究では,入出力ノイズアーチファクトを慎重に構築した条件拡散モデルを提案する。
論文参考訳（メタデータ） (2022-05-08T13:18:14Z)
Cluster-guided Image Synthesis with Unconditional Models [41.89334167530054]
本研究は、教師なし方式でよく訓練されたGANを活用することにより、制御可能な画像生成に焦点を当てる。クラスタ割り当てを条件付けすることで、提案手法は生成された画像の意味クラスを制御することができる。顔(CelebA-HQとFFHQ)、動物(Imagenet)、オブジェクト(LSUN)に対するアプローチの有効性を,異なる事前学習生成モデルを用いて示す。
論文参考訳（メタデータ） (2021-12-24T02:18:34Z)
High Resolution Face Editing with Masked GAN Latent Code Optimization [0.0]
顔の編集はコンピュータビジョンコミュニティで人気のある研究トピックである。最近の提案手法は、条件付きエンコーダデコーダであるGAN(Generative Adversarial Network)をエンドツーエンドでトレーニングするか、事前に訓練されたバニラGANジェネレータモデルの潜時空間での動作を定義するかのいずれかである。空間的および意味的制約を伴ったGAN組み込み最適化手順を提案する。
論文参考訳（メタデータ） (2021-03-20T08:39:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。