論文の概要: Say Cheese! Detail-Preserving Portrait Collection Generation via Natural Language Edits
- arxiv url: http://arxiv.org/abs/2601.20511v1
- Date: Wed, 28 Jan 2026 11:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.914317
- Title: Say Cheese! Detail-Preserving Portrait Collection Generation via Natural Language Edits
- Title(参考訳): さようなら! 自然言語編集による詳細なポートレートコレクション生成
- Authors: Zelong Sun, Jiahui Wu, Ying Ba, Dong Jing, Zhiwu Lu,
- Abstract要約: 自然言語による参照ポートレート画像の編集によってコヒーレントなポートレートコレクションを生成する新しいタスクであるポートレートコレクション生成(PCG)を紹介する。
これらの課題に対処するため、CHEESEは、24Kポートレートコレクションと高品質な修正テキストアノテーション付き573Kサンプルを含む、最初の大規模PCGデータセットである。
さらに、テキスト誘導世代と階層的アイデンティティと詳細保存を組み合わせたフレームワークSCheeseを提案する。
- 参考スコア(独自算出の注目度): 13.229329248938368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As social media platforms proliferate, users increasingly demand intuitive ways to create diverse, high-quality portrait collections. In this work, we introduce Portrait Collection Generation (PCG), a novel task that generates coherent portrait collections by editing a reference portrait image through natural language instructions. This task poses two unique challenges to existing methods: (1) complex multi-attribute modifications such as pose, spatial layout, and camera viewpoint; and (2) high-fidelity detail preservation including identity, clothing, and accessories. To address these challenges, we propose CHEESE, the first large-scale PCG dataset containing 24K portrait collections and 573K samples with high-quality modification text annotations, constructed through an Large Vison-Language Model-based pipeline with inversion-based verification. We further propose SCheese, a framework that combines text-guided generation with hierarchical identity and detail preservation. SCheese employs adaptive feature fusion mechanism to maintain identity consistency, and ConsistencyNet to inject fine-grained features for detail consistency. Comprehensive experiments validate the effectiveness of CHEESE in advancing PCG, with SCheese achieving state-of-the-art performance.
- Abstract(参考訳): ソーシャルメディアプラットフォームの普及に伴い、ユーザーは多種多様な高品質のポートレートコレクションを作成する直感的な方法を要求するようになった。
そこで本研究では,参照肖像画を自然言語で編集することで,コヒーレントな肖像画コレクションを生成する新しいタスクであるポートレート・コレクション・ジェネレーション(PCG)を紹介する。
本課題は,(1)ポーズ,空間配置,カメラ視点などの複雑な多属性修正,(2)アイデンティティ,衣服,アクセサリーを含む高忠実度細部保存という,既存の手法に特有の課題を提起する。
これらの課題に対処するため,CHEESEは,24Kポートレートコレクションと573Kサンプルを含む最初の大規模PCGデータセットである。
さらに、テキスト誘導世代と階層的アイデンティティと詳細保存を組み合わせたフレームワークSCheeseを提案する。
SCheeseはID整合性を維持するために適応的な機能融合機構を採用しており、ConsistencyNetは詳細な整合性のためにきめ細かい機能を注入する。
総合的な実験により,PCGの進行におけるCHEESEの有効性が検証された。
関連論文リスト
- TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。
マルチパーソンシナリオに適した大規模ペアデータセットを開発する。
本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:54Z) - ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation [24.487453636504707]
マルチインスタンス生成のための新しいDiffusion TransformerフレームワークであるContextGenを紹介する。
ContextGenは、制御精度、アイデンティティの忠実度、全体的な視覚的品質において、既存の手法よりも優れた新しい最先端の手法を設定できることを示します。
論文 参考訳(メタデータ) (2025-10-13T04:21:19Z) - Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。
我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。
Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文 参考訳(メタデータ) (2025-08-04T11:49:20Z) - Subject-Consistent and Pose-Diverse Text-to-Image Generation [36.67159307721023]
本稿では,CoDi と呼ばれる主観的かつポーズ的T2I フレームワークを提案する。
多様なポーズとレイアウトで一貫した主題生成を可能にする。
CoDiは、すべてのメトリクスに対して、より優れた視覚的知覚とより強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-11T08:15:56Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。
ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。
第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文 参考訳(メタデータ) (2024-07-13T05:28:45Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。