論文の概要: ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation
- arxiv url: http://arxiv.org/abs/2510.11000v1
- Date: Mon, 13 Oct 2025 04:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.199107
- Title: ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation
- Title(参考訳): ContextGen: アイデンティティ一貫性のあるマルチインスタンス生成のためのコンテキストレイアウトアンカリング
- Authors: Ruihang Xu, Dewei Zhou, Fan Ma, Yi Yang,
- Abstract要約: マルチインスタンス生成のための新しいDiffusion TransformerフレームワークであるContextGenを紹介する。
ContextGenは、制御精度、アイデンティティの忠実度、全体的な視覚的品質において、既存の手法よりも優れた新しい最先端の手法を設定できることを示します。
- 参考スコア(独自算出の注目度): 24.487453636504707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-instance image generation (MIG) remains a significant challenge for modern diffusion models due to key limitations in achieving precise control over object layout and preserving the identity of multiple distinct subjects. To address these limitations, we introduce ContextGen, a novel Diffusion Transformer framework for multi-instance generation that is guided by both layout and reference images. Our approach integrates two key technical contributions: a Contextual Layout Anchoring (CLA) mechanism that incorporates the composite layout image into the generation context to robustly anchor the objects in their desired positions, and Identity Consistency Attention (ICA), an innovative attention mechanism that leverages contextual reference images to ensure the identity consistency of multiple instances. Recognizing the lack of large-scale, hierarchically-structured datasets for this task, we introduce IMIG-100K, the first dataset with detailed layout and identity annotations. Extensive experiments demonstrate that ContextGen sets a new state-of-the-art, outperforming existing methods in control precision, identity fidelity, and overall visual quality.
- Abstract(参考訳): マルチインスタンス画像生成(MIG)は、オブジェクトのレイアウトを正確に制御し、複数の異なる対象の同一性を保った上で重要な制限のため、現代の拡散モデルにとって重要な課題である。
これらの制約に対処するために、レイアウトと参照画像の両方でガイドされるマルチインスタンス生成のための新しいDiffusion TransformerフレームワークであるContextGenを紹介する。
提案手法では,複合的なレイアウトイメージを生成コンテキストに組み込んだCLA(Contextual Layout Anchoring)機構と,複数のインスタンスのID整合性を確保するためにコンテキスト参照画像を活用するイノベーティブアテンション機構であるICA(Identity Consistency Attention)という,2つの重要な技術的コントリビューションを統合している。
このタスクには大規模で階層的なデータセットが欠如していることを認識し、詳細なレイアウトとIDアノテーションを備えた最初のデータセットであるIMIG-100Kを紹介します。
広範囲にわたる実験により、ContextGenは、制御精度、アイデンティティの忠実さ、全体的な視覚的品質において、既存の方法よりも優れた、最先端の新たなステート・オブ・ザ・アーティファクトを設定できることが示されている。
関連論文リスト
- MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models [89.89575486159795]
マルチイメージコンテキスト生成のためのベンチマークである textbfMICON-Bench を導入する。
本稿では,意味的および視覚的整合性の自動検証のためのMLLM駆動型評価-Checkpointフレームワークを提案する。
また、推論中に注意を動的に調整し、コヒーレンスを高め、幻覚を減らす訓練不要なプラグアンドプレイ機構であるtextbfDynamic Attention Rebalancing (DAR) を提案する。
論文 参考訳(メタデータ) (2026-02-23T04:32:52Z) - Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - MoGen: A Unified Collaborative Framework for Controllable Multi-Object Image Generation [76.94658056824422]
MoGenは、ユーザフレンドリーなマルチオブジェクト画像生成方法である。
まず、言語記述中のフレーズ単位を対応する画像領域に正確に固定する地域意味アンカー(RSA)モジュールを設計する。
適応型マルチモーダルガイダンス(AMG)モジュールを導入し,マルチソース制御信号の様々な組み合わせを適応的に解析・統合する。
論文 参考訳(メタデータ) (2026-01-09T05:57:48Z) - ConsistCompose: Unified Multimodal Layout Control for Image Composition [56.909072845166264]
レイアウト座標を直接言語プロンプトに埋め込む統合フレームワークであるConsistComposeを提案する。
本研究では,ConsistComposeがレイアウト制御ベースラインよりも空間精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-23T08:14:53Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion [24.513096225720854]
本稿では,複数視点のポーズ制御とカスタマイズを共同で実現することを目的とした,新しいタスクであるマルチビューカスタマイズを提案する。
MVCustomは,多視点の一貫性とカスタマイズの整合性の両方を実現するために設計された,新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-10-15T16:00:26Z) - Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion [35.67333978414322]
本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。
我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2025-05-28T13:40:46Z) - Omni-ID: Holistic Identity Representation Designed for Generative Tasks [75.29174595706533]
Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。
様々な数の非構造化入力画像から情報を構造化表現に集約する。
様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-12T19:21:20Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。
ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。
第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文 参考訳(メタデータ) (2024-07-13T05:28:45Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。