論文の概要: Enhancing Diffusion Face Generation with Contrastive Embeddings and SegFormer Guidance
- arxiv url: http://arxiv.org/abs/2508.09847v1
- Date: Wed, 13 Aug 2025 14:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.927956
- Title: Enhancing Diffusion Face Generation with Contrastive Embeddings and SegFormer Guidance
- Title(参考訳): コントラスト埋め込みとセグフォーマー誘導による拡散面生成の促進
- Authors: Dhruvraj Singh Rawat, Enggen Sherpa, Rishikesan Kirupanantha, Tin Hoang,
- Abstract要約: 小型のCelebAMask-HQデータセット上で,人間の顔生成のための拡散モデルのベンチマークを示す。
本研究では,未条件生成のためのUNetとDiTアーキテクチャを比較し,事前学習した安定拡散モデルのLoRAによる微調整について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a benchmark of diffusion models for human face generation on a small-scale CelebAMask-HQ dataset, evaluating both unconditional and conditional pipelines. Our study compares UNet and DiT architectures for unconditional generation and explores LoRA-based fine-tuning of pretrained Stable Diffusion models as a separate experiment. Building on the multi-conditioning approach of Giambi and Lisanti, which uses both attribute vectors and segmentation masks, our main contribution is the integration of an InfoNCE loss for attribute embedding and the adoption of a SegFormer-based segmentation encoder. These enhancements improve the semantic alignment and controllability of attribute-guided synthesis. Our results highlight the effectiveness of contrastive embedding learning and advanced segmentation encoding for controlled face generation in limited data settings.
- Abstract(参考訳): 小型のCelebAMask-HQデータセット上で、人間の顔生成のための拡散モデルのベンチマークを行い、無条件パイプラインと条件パイプラインの両方を評価する。
本研究では,未条件生成のためのUNetとDiTアーキテクチャを比較し,事前学習した安定拡散モデルのLoRAによる微調整を別の実験として検討する。
属性ベクトルとセグメンテーションマスクの両方を使用するGiambiとLisantiのマルチコンディショニングアプローチをベースとして,属性埋め込みのためのInfoNCE損失の統合と,SegFormerベースのセグメンテーションエンコーダの採用が主な貢献である。
これらの強化により、属性誘導合成のセマンティックアライメントと制御性が向上する。
本研究は,限られたデータ環境下での顔生成におけるコントラスト埋め込み学習と高度なセグメンテーション符号化の有効性を強調した。
関連論文リスト
- ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。
ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文 参考訳(メタデータ) (2025-07-21T17:02:57Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - ScribbleGen: Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation [10.225021032417589]
本稿では,スクリブル教師付きセマンティックセグメンテーションのための生成データ拡張手法であるScribbleGenを提案する。
セマンティックスクリブルに条件付き制御ネット拡散モデルを用いて,高品質なトレーニングデータを生成する。
我々のフレームワークは、完全に教師されたセグメンテーションを超越しても、小さなデータセットでのセグメンテーション性能を著しく改善することを示す。
論文 参考訳(メタデータ) (2023-11-28T13:44:33Z) - SRFormer: Text Detection Transformer with Incorporated Segmentation and
Regression [6.74412860849373]
本稿では,アマルガメーションと回帰を併用した統合DTRモデルSRFormerを提案する。
実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。
提案手法の強靭性,優れたトレーニングとデータ効率,および最先端の性能について検討した。
論文 参考訳(メタデータ) (2023-08-21T07:34:31Z) - Insights into Closed-form IPM-GAN Discriminator Guidance for Diffusion Modeling [11.68361062474064]
本稿では,GAN判別器がLangevinに基づくサンプリングに与える影響を理論的に解析する枠組みを提案する。
提案手法は既存の加速拡散技術と組み合わせて潜在空間画像生成を改善することができることを示す。
論文 参考訳(メタデータ) (2023-06-02T16:24:07Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Information-theoretic stochastic contrastive conditional GAN:
InfoSCC-GAN [6.201770337181472]
本稿では,探索可能な潜伏空間を有するコントラスト条件生成対向ネットワーク(Info SCC-GAN)を提案する。
インフォメーションSCC-GANは、入力データと潜時空間表現の間の相互情報の情報理論的定式化に基づいて導出される。
実験により、Info SCC-GANはAFHQとCelebAデータセットの画像生成において、"vanilla" EigenGANよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-12-17T17:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。