論文の概要: WithAnyone: Towards Controllable and ID Consistent Image Generation
- arxiv url: http://arxiv.org/abs/2510.14975v1
- Date: Thu, 16 Oct 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.008752
- Title: WithAnyone: Towards Controllable and ID Consistent Image Generation
- Title(参考訳): WithAnyone: 制御可能およびID一貫性の画像生成を目指して
- Authors: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。
マルチパーソンシナリオに適した大規模ペアデータセットを開発する。
本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
- 参考スコア(独自算出の注目度): 83.55786496542062
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identity-consistent generation has become an important focus in text-to-image research, with recent models achieving notable success in producing images aligned with a reference identity. Yet, the scarcity of large-scale paired datasets containing multiple images of the same individual forces most approaches to adopt reconstruction-based training. This reliance often leads to a failure mode we term copy-paste, where the model directly replicates the reference face rather than preserving identity across natural variations in pose, expression, or lighting. Such over-similarity undermines controllability and limits the expressive power of generation. To address these limitations, we (1) construct a large-scale paired dataset MultiID-2M, tailored for multi-person scenarios, providing diverse references for each identity; (2) introduce a benchmark that quantifies both copy-paste artifacts and the trade-off between identity fidelity and variation; and (3) propose a novel training paradigm with a contrastive identity loss that leverages paired data to balance fidelity with diversity. These contributions culminate in WithAnyone, a diffusion-based model that effectively mitigates copy-paste while preserving high identity similarity. Extensive qualitative and quantitative experiments demonstrate that WithAnyone significantly reduces copy-paste artifacts, improves controllability over pose and expression, and maintains strong perceptual quality. User studies further validate that our method achieves high identity fidelity while enabling expressive controllable generation.
- Abstract(参考訳): アイデンティティ一貫性のある生成は、テキスト・ツー・イメージの研究において重要な焦点となり、最近のモデルでは参照アイデンティティと整合した画像の生成に顕著な成功を収めている。
しかし、同じ個々の複数の画像を含む大規模なペアデータセットの不足は、ほとんどのアプローチが再構築ベースのトレーニングを採用するのに役立っている。
この依存は、しばしばコピーペーストと呼ばれる失敗モードにつながり、モデルがポーズ、表現、照明の自然なバリエーションにまたがってアイデンティティを保存するのではなく、参照顔を直接複製する。
このような相似性は制御性を損なうとともに、生成の表現力を制限する。
これらの制約に対処するため,(1)複数の個人シナリオに合わせた大規模データセットMultiID-2Mの構築,(2)コピーペーストアーティファクトとアイデンティティの忠実度と変動のトレードオフを定量化するベンチマークの導入,(3)ペアデータを利用して多様性のバランスをとる新しいトレーニングパラダイムを提案する。
これらの貢献は、高いアイデンティティの類似性を保ちながら、コピーペーストを効果的に緩和する拡散ベースのモデルであるWithAnyoneで頂点に達した。
大規模な質的および定量的実験により、WithAnyoneはコピー・ペースト・アーティファクトを著しく減らし、ポーズや表現の制御性を改善し、知覚的品質を強く維持することを示した。
ユーザスタディは、表現力のある制御可能な生成を可能にしながら、高い同一性を達成することをさらに検証する。
関連論文リスト
- DisCo: Reinforcement with Diversity Constraints for Multi-Human Generation [60.741022906593685]
DisCoは、マルチヒューマン世代におけるアイデンティティの多様性を直接最適化する最初のRLベースのフレームワークである。
グループ相対ポリシー最適化によるDisCo微粒フローマッチングモデル。
DiverseHumans Testsetでは、DisCoは98.6のユニークな顔の精度とほぼ完璧なグローバルアイデンティティスプレッドを実現している。
論文 参考訳(メタデータ) (2025-10-01T19:28:51Z) - ID-Booth: Identity-consistent Face Generation with Diffusion Models [27.46650231581887]
我々はID-Boothと呼ばれる新しい生成拡散に基づくフレームワークを提案する。
このフレームワークは、事前訓練された拡散モデルの合成能力を保ちながら、アイデンティティ一貫性のある画像生成を可能にする。
本手法は、画像の多様性を向上しつつ、競合する手法よりもアイデンティティ間の一貫性とアイデンティティ間の分離性を向上する。
論文 参考訳(メタデータ) (2025-04-10T02:20:18Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。