論文の概要: Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion
- arxiv url: http://arxiv.org/abs/2505.22360v1
- Date: Wed, 28 May 2025 13:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.636247
- Title: Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion
- Title(参考訳): デュアルレベル特徴分離とエキスパートガイド融合による同一性保存テキスト・画像生成
- Authors: Kewen Chen, Xiaobin Hu, Wenqi Ren,
- Abstract要約: 本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。
我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
- 参考スコア(独自算出の注目度): 35.67333978414322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large-scale text-to-image generation models have led to a surge in subject-driven text-to-image generation, which aims to produce customized images that align with textual descriptions while preserving the identity of specific subjects. Despite significant progress, current methods struggle to disentangle identity-relevant information from identity-irrelevant details in the input images, resulting in overfitting or failure to maintain subject identity. In this work, we propose a novel framework that improves the separation of identity-related and identity-unrelated features and introduces an innovative feature fusion mechanism to improve the quality and text alignment of generated images. Our framework consists of two key components: an Implicit-Explicit foreground-background Decoupling Module (IEDM) and a Feature Fusion Module (FFM) based on a Mixture of Experts (MoE). IEDM combines learnable adapters for implicit decoupling at the feature level with inpainting techniques for explicit foreground-background separation at the image level. FFM dynamically integrates identity-irrelevant features with identity-related features, enabling refined feature representations even in cases of incomplete decoupling. In addition, we introduce three complementary loss functions to guide the decoupling process. Extensive experiments demonstrate the effectiveness of our proposed method in enhancing image generation quality, improving flexibility in scene adaptation, and increasing the diversity of generated outputs across various textual descriptions.
- Abstract(参考訳): 近年の大規模テキスト・ツー・イメージ生成モデルの進歩は、特定の主題の同一性を保ちながら、テキスト記述と整合したカスタマイズされた画像を作成することを目的とした、主題駆動のテキスト・ツー・イメージ生成の急激な増加につながっている。
大幅な進歩にもかかわらず、現在の手法は、入力画像のアイデンティティ関連の詳細からアイデンティティ関連情報を解き放つのに苦労し、結果として被写体アイデンティティを過度に調整したり、維持することができない。
本研究では、識別関連特徴と識別関連特徴の分離を改善する新しいフレームワークを提案し、生成画像の品質とテキストアライメントを改善するための革新的な特徴融合機構を提案する。
本フレームワークは,Implicit-Explicitフォアグラウンド・バックグラウンド・デカップリングモジュール (IEDM) と,Mixture of Experts (MoE) に基づくFeature Fusion Module (FFM) の2つの重要なコンポーネントから構成される。
IEDMは、特徴レベルで暗黙的に分離するための学習可能なアダプタと、画像レベルでの明示的な前景と背景の分離のための塗装技術を組み合わせる。
FFMは、アイデンティティ非関連機能とアイデンティティ関連機能とを動的に統合し、不完全なデカップリングの場合であっても、洗練された特徴表現を可能にする。
さらに,3つの相補的損失関数を導入し,デカップリングプロセスの導出を行う。
画像生成品質の向上,シーン適応の柔軟性の向上,各種テキスト記述における出力の多様性の向上などにおいて,提案手法の有効性を実証した。
関連論文リスト
- InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity [19.869955517856273]
InfUは、アイデンティティの類似性の不足、テキストイメージのアライメントの低下、世代品質と美学の低下など、既存の手法の問題に対処する。
事前トレーニングと教師付き微調整を含む多段階のトレーニング戦略は、テキストイメージアライメントを改善し、画質を改善し、顔の複写を緩和する。
論文 参考訳(メタデータ) (2025-03-20T17:59:34Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。