論文の概要: Subject-Consistent and Pose-Diverse Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2507.08396v1
- Date: Fri, 11 Jul 2025 08:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.290017
- Title: Subject-Consistent and Pose-Diverse Text-to-Image Generation
- Title(参考訳): 対訳 テキスト・ツー・イメージ・ジェネレーション
- Authors: Zhanxin Gao, Beier Zhu, Liang Yao, Jian Yang, Ying Tai,
- Abstract要約: 本稿では,CoDi と呼ばれる主観的かつポーズ的T2I フレームワークを提案する。
多様なポーズとレイアウトで一貫した主題生成を可能にする。
CoDiは、すべてのメトリクスに対して、より優れた視覚的知覚とより強力なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 36.67159307721023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subject-consistent generation (SCG)-aiming to maintain a consistent subject identity across diverse scenes-remains a challenge for text-to-image (T2I) models. Existing training-free SCG methods often achieve consistency at the cost of layout and pose diversity, hindering expressive visual storytelling. To address the limitation, we propose subject-Consistent and pose-Diverse T2I framework, dubbed as CoDi, that enables consistent subject generation with diverse pose and layout. Motivated by the progressive nature of diffusion, where coarse structures emerge early and fine details are refined later, CoDi adopts a two-stage strategy: Identity Transport (IT) and Identity Refinement (IR). IT operates in the early denoising steps, using optimal transport to transfer identity features to each target image in a pose-aware manner. This promotes subject consistency while preserving pose diversity. IR is applied in the later denoising steps, selecting the most salient identity features to further refine subject details. Extensive qualitative and quantitative results on subject consistency, pose diversity, and prompt fidelity demonstrate that CoDi achieves both better visual perception and stronger performance across all metrics. The code is provided in https://github.com/NJU-PCALab/CoDi.
- Abstract(参考訳): サブジェクト一貫性生成(SCG)は、さまざまなシーンにまたがって一貫した被写体アイデンティティを維持するため、テキスト・トゥ・イメージ(T2I)モデルに挑戦する。
既存のトレーニング不要のSCG手法は、しばしばレイアウトのコストで一貫性を達成し、多様性を生かし、表現力のあるビジュアルストーリーテリングを妨げる。
この制限に対処するために、多種多様なポーズとレイアウトで一貫した主題生成を可能にする、CoDiと呼ばれる主観的かつポーズ的T2Iフレームワークを提案する。
拡散の進行的な性質により、粗い構造が早く出現し、細部が後に洗練され、CoDiはアイデンティティトランスポート(IT)とアイデンティティリファインメント(IR)という2段階の戦略を採用する。
適切なトランスポートを使用して、各ターゲットイメージにポーズアウェアでアイデンティティ機能を転送する。
これは、ポーズの多様性を維持しながら、主題の一貫性を促進する。
IRは後続の段階で適用され、被写体の詳細をさらに洗練するために最も健全なアイデンティティ機能を選択する。
主観的整合性、ポーズの多様性、迅速な忠実度に関する広範囲な質的および定量的な結果から、CoDiはより優れた視覚的知覚と、すべての指標におけるより強力なパフォーマンスを達成できることを示した。
コードはhttps://github.com/NJU-PCALab/CoDiで提供されている。
関連論文リスト
- Noise Consistency Regularization for Improved Subject-Driven Image Synthesis [55.75426086791612]
微調整安定拡散は、モデルを適用して特定の対象を含む画像を生成することによって、被写体駆動画像合成を可能にする。
既存の微調整手法は、モデルが確実に被写体を捕捉できない不適合と、被写体イメージを記憶し、背景の多様性を減少させる過適合の2つの主要な問題に悩まされる。
拡散微調整のための2つの補助的整合性損失を提案する。第1に、事前(非対象)画像に対する予測拡散雑音が事前訓練されたモデルと一致し、忠実度が向上する。
論文 参考訳(メタデータ) (2025-06-06T19:17:37Z) - DynASyn: Multi-Subject Personalization Enabling Dynamic Action Synthesis [3.6294581578004332]
単一参照画像からの効果的な多目的パーソナライズであるDynASynを提案する。
DynASynは、概念に基づく先行と主題の出現と行動とを整合させることにより、パーソナライズプロセスにおける主題のアイデンティティを保存する。
さらに,アイデンティティの保存と行動多様性のトレードオフを高めるために,概念に基づくプロンプト・アンド・イメージの強化を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:56:35Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance [20.430259028981094]
ゼロショットパーソナライズされた画像生成モデルは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。
既存の手法では、細かな被写体の詳細を捉えるのに苦労することが多く、一方のガイダンスを他方よりも優先することが多い。
EZIGenは、固定トレーニング済みのDiffusion UNet自体を主題エンコーダとして活用する。
論文 参考訳(メタデータ) (2024-09-12T14:44:45Z) - Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。
ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。
第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文 参考訳(メタデータ) (2024-07-13T05:28:45Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。