Fugu-MT 論文翻訳(概要): Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion

論文の概要: Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion

arxiv url: http://arxiv.org/abs/2505.22360v1
Date: Wed, 28 May 2025 13:40:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.636247
Title: Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion
Title（参考訳）: デュアルレベル特徴分離とエキスパートガイド融合による同一性保存テキスト・画像生成
Authors: Kewen Chen, Xiaobin Hu, Wenqi Ren,
Abstract要約: 本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
参考スコア（独自算出の注目度）: 35.67333978414322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large-scale text-to-image generation models have led to a surge in subject-driven text-to-image generation, which aims to produce customized images that align with textual descriptions while preserving the identity of specific subjects. Despite significant progress, current methods struggle to disentangle identity-relevant information from identity-irrelevant details in the input images, resulting in overfitting or failure to maintain subject identity. In this work, we propose a novel framework that improves the separation of identity-related and identity-unrelated features and introduces an innovative feature fusion mechanism to improve the quality and text alignment of generated images. Our framework consists of two key components: an Implicit-Explicit foreground-background Decoupling Module (IEDM) and a Feature Fusion Module (FFM) based on a Mixture of Experts (MoE). IEDM combines learnable adapters for implicit decoupling at the feature level with inpainting techniques for explicit foreground-background separation at the image level. FFM dynamically integrates identity-irrelevant features with identity-related features, enabling refined feature representations even in cases of incomplete decoupling. In addition, we introduce three complementary loss functions to guide the decoupling process. Extensive experiments demonstrate the effectiveness of our proposed method in enhancing image generation quality, improving flexibility in scene adaptation, and increasing the diversity of generated outputs across various textual descriptions.
Abstract（参考訳）: 近年の大規模テキスト・ツー・イメージ生成モデルの進歩は、特定の主題の同一性を保ちながら、テキスト記述と整合したカスタマイズされた画像を作成することを目的とした、主題駆動のテキスト・ツー・イメージ生成の急激な増加につながっている。大幅な進歩にもかかわらず、現在の手法は、入力画像のアイデンティティ関連の詳細からアイデンティティ関連情報を解き放つのに苦労し、結果として被写体アイデンティティを過度に調整したり、維持することができない。本研究では、識別関連特徴と識別関連特徴の分離を改善する新しいフレームワークを提案し、生成画像の品質とテキストアライメントを改善するための革新的な特徴融合機構を提案する。本フレームワークは,Implicit-Explicitフォアグラウンド・バックグラウンド・デカップリングモジュール (IEDM) と,Mixture of Experts (MoE) に基づくFeature Fusion Module (FFM) の2つの重要なコンポーネントから構成される。 IEDMは、特徴レベルで暗黙的に分離するための学習可能なアダプタと、画像レベルでの明示的な前景と背景の分離のための塗装技術を組み合わせる。 FFMは、アイデンティティ非関連機能とアイデンティティ関連機能とを動的に統合し、不完全なデカップリングの場合であっても、洗練された特徴表現を可能にする。さらに,3つの相補的損失関数を導入し,デカップリングプロセスの導出を行う。画像生成品質の向上,シーン適応の柔軟性の向上,各種テキスト記述における出力の多様性の向上などにおいて,提案手法の有効性を実証した。

関連論文リスト

PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement [26.89021788485701]
PolyVividは、フレキシブルでアイデンティティ一貫性のある生成を可能にする、多目的ビデオカスタマイズフレームワークである。実験では、PolyVividはアイデンティティの忠実さ、ビデオリアリズム、被写体アライメントにおいて優れたパフォーマンスを達成し、既存のオープンソースおよび商用ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-09T15:11:09Z)
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity [19.869955517856273]
InfUは、アイデンティティの類似性の不足、テキストイメージのアライメントの低下、世代品質と美学の低下など、既存の手法の問題に対処する。事前トレーニングと教師付き微調整を含む多段階のトレーニング戦略は、テキストイメージアライメントを改善し、画質を改善し、顔の複写を緩和する。
論文参考訳（メタデータ） (2025-03-20T17:59:34Z)
Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。 DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文参考訳（メタデータ） (2024-10-16T06:28:49Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文参考訳（メタデータ） (2024-07-13T05:28:45Z)
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文参考訳（メタデータ） (2024-04-23T18:41:56Z)
DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation [84.0586749616249]
本稿では,高忠実度顔画像編集に適した1段階かつ高効率な拡散ベースフレームワークDiffFAEを提案する。高忠実度クエリ属性転送には、空間感性物理カスタマイズ(SPC)を採用し、忠実度と一般化能力を保証している。ソース属性を保存するために、Regional-responsive Semantic Composition (RSC)を導入する。このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
論文参考訳（メタデータ） (2024-03-26T12:53:10Z)
Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文参考訳（メタデータ） (2024-03-18T13:39:53Z)
DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。 DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文参考訳（メタデータ） (2023-05-05T09:08:25Z)
FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文参考訳（メタデータ） (2022-10-19T11:31:38Z)
T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。 2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文参考訳（メタデータ） (2022-08-18T07:41:02Z)
Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。 CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文参考訳（メタデータ） (2020-01-12T05:26:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。