論文の概要: XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation
- arxiv url: http://arxiv.org/abs/2506.21416v1
- Date: Thu, 26 Jun 2025 16:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.177464
- Title: XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation
- Title(参考訳): XVerse: DiT変調によるアイデンティティとセマンティック属性の連続多目的制御
- Authors: Bowen Chen, Mengyi Zhao, Haomiao Sun, Li Chen, Xu Wang, Kang Du, Xinglong Wu,
- Abstract要約: 本稿では,新しいマルチオブジェクト制御生成モデルXVerseを提案する。
参照画像をトークン固有のテキストストリーム変調のオフセットに変換することで、XVerseは特定の主題に対して正確かつ独立した制御を可能にする。
XVerseは、個々の主題の特徴とセマンティック属性を頑健に制御した、高忠実で編集可能なマルチオブジェクト画像合成を提供する。
- 参考スコア(独自算出の注目度): 12.859297336955343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving fine-grained control over subject identity and semantic attributes (pose, style, lighting) in text-to-image generation, particularly for multiple subjects, often undermines the editability and coherence of Diffusion Transformers (DiTs). Many approaches introduce artifacts or suffer from attribute entanglement. To overcome these challenges, we propose a novel multi-subject controlled generation model XVerse. By transforming reference images into offsets for token-specific text-stream modulation, XVerse allows for precise and independent control for specific subject without disrupting image latents or features. Consequently, XVerse offers high-fidelity, editable multi-subject image synthesis with robust control over individual subject characteristics and semantic attributes. This advancement significantly improves personalized and complex scene generation capabilities.
- Abstract(参考訳): テキスト・ツー・イメージ生成における主題のアイデンティティとセマンティック属性(目的、スタイル、ライティング)のきめ細かい制御を実現することは、拡散変換器(DiT)の編集可能性やコヒーレンスを損なうことも多い。
多くのアプローチはアーティファクトを導入するか、属性の絡み合いに悩まされる。
これらの課題を克服するため、我々は新しいマルチオブジェクト制御生成モデルXVerseを提案する。
参照画像をトークン固有のテキストストリーム変調のオフセットに変換することで、XVerseは、画像の潜伏者や特徴を中断することなく、特定の被写体に対して正確かつ独立した制御を可能にする。
その結果、XVerseは、個々の主題の特徴と意味的属性を頑健に制御した、高忠実で編集可能なマルチオブジェクト画像合成を提供する。
この進歩はパーソナライズされた複雑なシーン生成機能を大幅に改善する。
関連論文リスト
- ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
概念内の個々のコンポーネントをカスタマイズし、再構成する新しいタスクである、コンポーネント制御可能なパーソナライゼーションを導入する。
この課題は、望ましくない要素が対象概念を阻害する意味汚染と、対象概念と構成要素を不均等に学習する意味不均衡という2つの課題に直面する。
動的マスケド・デグラデーション(Dynamic Masked Degradation, 動的マスケド・デグラデーション, 動的マスケド・デグラデーション)を用いて、望まない視覚的セマンティクスを適応的に摂動し、望まれる視覚的セマンティクスをよりバランスよく学習するために、デュアルストリーム・バランシング(Dual-Stream Balancing)を設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文 参考訳(メタデータ) (2024-01-16T16:19:58Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - The Stable Artist: Steering Semantics in Diffusion Latent Space [17.119616029527744]
本稿では,画像生成プロセスのきめ細かい制御を可能にする画像編集手法であるStable Artistを提案する。
主要なコンポーネントはセマンティックガイダンス(SEGA)であり、セマンティックな方向の変数数に沿って拡散過程を制御している。
SEGAは、モデルによって学習された概念の表現に関する洞察を得るために、潜在空間の探索を可能にする。
論文 参考訳(メタデータ) (2022-12-12T16:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。