論文の概要: CusEnhancer: A Zero-Shot Scene and Controllability Enhancement Method for Photo Customization via ResInversion
- arxiv url: http://arxiv.org/abs/2509.20775v1
- Date: Thu, 25 Sep 2025 06:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.716152
- Title: CusEnhancer: A Zero-Shot Scene and Controllability Enhancement Method for Photo Customization via ResInversion
- Title(参考訳): CusEnhancer:Resinversionによる写真カスタマイズのためのゼロショットシーンと可制御性向上手法
- Authors: Maoye Ren, Praneetha Vaddamanu, Jianjin Xu, Fernando De la Torre Frade,
- Abstract要約: 既存のアイデンティティカスタマイズモデルを拡張する新しいフレームワークであるCustomEnhancerを紹介します。
当社のパイプラインは、パーソナライズされたモデルの生成プロセスに対する、包括的なトレーニング不要な制御を可能にする。
- 参考スコア(独自算出の注目度): 45.07652341517572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently remarkable progress has been made in synthesizing realistic human photos using text-to-image diffusion models. However, current approaches face degraded scenes, insufficient control, and suboptimal perceptual identity. We introduce CustomEnhancer, a novel framework to augment existing identity customization models. CustomEnhancer is a zero-shot enhancement pipeline that leverages face swapping techniques, pretrained diffusion model, to obtain additional representations in a zeroshot manner for encoding into personalized models. Through our proposed triple-flow fused PerGeneration approach, which identifies and combines two compatible counter-directional latent spaces to manipulate a pivotal space of personalized model, we unify the generation and reconstruction processes, realizing generation from three flows. Our pipeline also enables comprehensive training-free control over the generation process of personalized models, offering precise controlled personalization for them and eliminating the need for controller retraining for per-model. Besides, to address the high time complexity of null-text inversion (NTI), we introduce ResInversion, a novel inversion method that performs noise rectification via a pre-diffusion mechanism, reducing the inversion time by 129 times. Experiments demonstrate that CustomEnhancer reach SOTA results at scene diversity, identity fidelity, training-free controls, while also showing the efficiency of our ResInversion over NTI. The code will be made publicly available upon paper acceptance.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ拡散モデルを用いたリアルな人間の写真合成の進歩が目覚ましい。
しかし、現在のアプローチでは、劣化したシーン、制御の不十分、そして知覚の至適性に直面する。
既存のアイデンティティカスタマイズモデルを拡張する新しいフレームワークであるCustomEnhancerを紹介します。
CustomEnhancerは、顔スワッピング技術、事前訓練された拡散モデルを活用するゼロショット拡張パイプラインで、パーソナライズされたモデルにエンコーディングするためのゼロショット方式で追加表現を取得する。
提案手法では,2つの互換性のある逆方向の潜在空間を識別・結合してパーソナライズされたモデルの重要な空間を操作し,生成と再構築のプロセスを統一し,3つのフローから生成を実現する。
我々のパイプラインはまた、パーソナライズされたモデルの生成プロセスに対する総合的なトレーニング不要な制御を可能にし、それらのパーソナライズを正確に制御し、モデルごとのコントローラの再トレーニングを不要にする。
さらに、NTI(Null-text Inversion)の高次複雑さに対応するために、事前拡散機構によるノイズ修正を行う新しい逆変換法ResInversionを導入し、インバージョン時間を129倍削減する。
実験では、CustomEnhancerがSOTAに到達すると、シーンの多様性、アイデンティティの忠実さ、トレーニング不要なコントロールが得られます。
コードは、論文の受理時に公開される。
関連論文リスト
- DiffusionReward: Enhancing Blind Face Restoration through Reward Feedback Learning [40.641049729447175]
DiffusionRewardという名前のReFLフレームワークをBlind Face Restorationタスクに初めて導入する。
私たちのフレームワークの中核はFace Reward Model(FRM)です。
合成およびワイルドデータセットの実験により,本手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-23T13:53:23Z) - Personalize Anything for Free with Diffusion Transformer [20.385520869825413]
最近のトレーニングフリーアプローチはアイデンティティの保存、適用性、拡散トランスフォーマ(DiT)との互換性に苦慮している
既往のDiTの可能性を明らかにし,デノベーショントークンを参照対象のトークンに置き換えることで,ゼロショット対象の再構成を実現する。
本報告では,DiTにおける画像のパーソナライズを実現するトレーニングフリーフレームワークである textbfPersonalize Anything を提案する。1)早期注入による被写体一貫性を強制し,後期正規化による柔軟性を高めるタイムステップ適応トークン置換,2) 構造多様性を高めるためのパッチ摂動戦略。
論文 参考訳(メタデータ) (2025-03-16T17:51:16Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。