論文の概要: Training-Free Identity Preservation in Stylized Image Generation Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.06802v1
- Date: Sat, 07 Jun 2025 13:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.485696
- Title: Training-Free Identity Preservation in Stylized Image Generation Using Diffusion Models
- Title(参考訳): 拡散モデルを用いたスティル化画像生成における学習自由ID保存
- Authors: Mohammad Ali Rezaei, Helia Hajikazem, Saeed Khanehgir, Mahdi Javanmardi,
- Abstract要約: モザイク復元コンテンツイメージ(Mosaic Restored Content Image)は、アイデンティティ保存型画像合成のためのトレーニング不要のフレームワークである。
提案手法は,高スタイリスティックな忠実度と頑健なアイデンティティの整合性を同時に維持する上で,ベースラインモデルを大幅に上回ることを示した。
- 参考スコア(独自算出の注目度): 0.6749750044497732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion models have demonstrated remarkable generative capabilities, existing style transfer techniques often struggle to maintain identity while achieving high-quality stylization. This limitation is particularly acute for images where faces are small or exhibit significant camera-to-face distances, frequently leading to inadequate identity preservation. To address this, we introduce a novel, training-free framework for identity-preserved stylized image synthesis using diffusion models. Key contributions include: (1) the "Mosaic Restored Content Image" technique, significantly enhancing identity retention, especially in complex scenes; and (2) a training-free content consistency loss that enhances the preservation of fine-grained content details by directing more attention to the original image during stylization. Our experiments reveal that the proposed approach substantially surpasses the baseline model in concurrently maintaining high stylistic fidelity and robust identity integrity, particularly under conditions of small facial regions or significant camera-to-face distances, all without necessitating model retraining or fine-tuning.
- Abstract(参考訳): 拡散モデルは顕著な生成能力を示してきたが、既存のスタイル転送技術は、高品質なスタイル化を達成しながらアイデンティティを維持するのに苦労することが多い。
この制限は、顔が小さい、あるいはカメラと顔の距離が大きな画像にとって特に急激であり、しばしば不適切なアイデンティティの保存につながる。
そこで本研究では,拡散モデルを用いた個人性保存型画像合成のための新しい学習自由フレームワークを提案する。
主なコントリビューションは,(1)「モザイク復元コンテンツイメージ」技術,特に複雑なシーンにおけるアイデンティティ保持の大幅な向上,(2)スタイリゼーション中にオリジナル画像に注意を向けることで,細かなコンテンツの詳細の保存を向上するトレーニング不要コンテンツ一貫性の喪失などである。
提案手法は, モデル再構成や微調整を必要とせず, 特に小さな顔領域や重要なカメラ間距離の条件下では, 高いスタイリスティック忠実度と堅牢なアイデンティティ整合性を同時に維持する上で, ベースラインモデルを大幅に上回っていることが明らかとなった。
関連論文リスト
- Noise Consistency Regularization for Improved Subject-Driven Image Synthesis [55.75426086791612]
微調整安定拡散は、モデルを適用して特定の対象を含む画像を生成することによって、被写体駆動画像合成を可能にする。
既存の微調整手法は、モデルが確実に被写体を捕捉できない不適合と、被写体イメージを記憶し、背景の多様性を減少させる過適合の2つの主要な問題に悩まされる。
拡散微調整のための2つの補助的整合性損失を提案する。第1に、事前(非対象)画像に対する予測拡散雑音が事前訓練されたモデルと一致し、忠実度が向上する。
論文 参考訳(メタデータ) (2025-06-06T19:17:37Z) - ID-Booth: Identity-consistent Face Generation with Diffusion Models [10.042492056152232]
我々はID-Boothと呼ばれる新しい生成拡散に基づくフレームワークを提案する。
このフレームワークは、事前訓練された拡散モデルの合成能力を保ちながら、アイデンティティ一貫性のある画像生成を可能にする。
本手法は、画像の多様性を向上しつつ、競合する手法よりもアイデンティティ間の一貫性とアイデンティティ間の分離性を向上する。
論文 参考訳(メタデータ) (2025-04-10T02:20:18Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - PersonaMagic: Stage-Regulated High-Fidelity Face Customization with Tandem Equilibrium [55.72249032433108]
PersonaMagicは、高忠実な顔のカスタマイズのために設計された、ステージ制御された生成技術である。
本手法は,顔の概念を捉えるために,特定の時間間隔内に一連の埋め込みを学習する。
定性評価と定量的評価の両方において、ペルソナマジックが最先端の手法よりも優れていることを確認する。
論文 参考訳(メタデータ) (2024-12-20T08:41:25Z) - Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge [33.35678923549471]
textbfFreeCureはパーソナライゼーションモデルの迅速な一貫性を改善するフレームワークである。
本稿では, 個人化プロセスに適切な属性情報をもたらすための, インバージョンベースのプロセスと合わせて, ファンデーションを意識した新たな自己意識モジュールを提案する。
FreeCureは、さまざまな最先端の顔のパーソナライゼーションモデルに対して、迅速な一貫性を顕著に向上させた。
論文 参考訳(メタデータ) (2024-11-22T15:21:38Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。