論文の概要: MS-CustomNet: Controllable Multi-Subject Customization with Hierarchical Relational Semantics
- arxiv url: http://arxiv.org/abs/2603.21136v1
- Date: Sun, 22 Mar 2026 09:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.25327
- Title: MS-CustomNet: Controllable Multi-Subject Customization with Hierarchical Relational Semantics
- Title(参考訳): MS-CustomNet:階層的リレーショナルセマンティックスを用いた制御可能なマルチオブジェクトカスタマイズ
- Authors: Pengxiang Cai, Mengyang Li,
- Abstract要約: マルチオブジェクトカスタマイズのための新しいフレームワークであるMS-CustomNetを紹介する。
MS-CustomNetは複数のユーザが提供するオブジェクトのゼロショット統合を可能にする。
DINO-Iスコアが0.61、YOLO-Lスコアが0.94となり、多目的カスタマイズタスクにおける位置制御が可能となった。
- 参考スコア(独自算出の注目度): 4.05356944557183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based text-to-image generation has advanced significantly, yet customizing scenes with multiple distinct subjects while maintaining fine-grained control over their interactions remains challenging. Existing methods often struggle to provide explicit user-defined control over the compositional structure and precise spatial relationships between subjects. To address this, we introduce MS-CustomNet, a novel framework for multi-subject customization. MS-CustomNet allows zero-shot integration of multiple user-provided objects and, crucially, empowers users to explicitly define these hierarchical arrangements and spatial placements within the generated image. Our approach ensures individual subject identity preservation while learning and enacting these user-specified inter-subject compositions. We also present the MSI dataset, derived from COCO, to facilitate training on such complex multi-subject compositions. MS-CustomNet offers enhanced, fine-grained control over multi-subject image generation. Our method achieves a DINO-I score of 0.61 for identity preservation and a YOLO-L score of 0.94 for positional control in multi-subject customization tasks, demonstrating its superior capability in generating high-fidelity images with precise, user-directed multi-subject compositions and spatial control.
- Abstract(参考訳): 拡散に基づくテキスト・画像生成は著しく進歩しているが、複数の異なる主題でシーンをカスタマイズする一方で、インタラクションのきめ細かい制御は依然として困難である。
既存の手法は、構成構造と被写体間の正確な空間的関係について、明確なユーザ定義の制御を提供するのに苦労することが多い。
そこで我々は,マルチオブジェクトカスタマイズのための新しいフレームワークであるMS-CustomNetを紹介した。
MS-CustomNetは、複数のユーザが提供するオブジェクトをゼロショットで統合することを可能にする。
提案手法は,これらのユーザ指定オブジェクト間合成を学習し,実行しながら,個別の個人識別を確実にする。
また、COCOから派生したMSIデータセットを提示し、このような複雑な多目的合成のトレーニングを容易にする。
MS-CustomNetは、マルチオブジェクト画像生成の強化されたきめ細かい制御を提供する。
本手法は,多目的カスタマイズタスクにおける位置制御のためのDINO-Iスコア0.61とYOLO-Lスコア0.94を達成し,高精度でユーザ指向の多目的合成と空間制御による高忠実度画像の生成に優れることを示す。
関連論文リスト
- Unified Personalized Understanding, Generating and Editing [54.5563878110386]
統一LMMのためのエンドツーエンドパーソナライズフレームワークである textbf OmniPersona を提案する。
パーソナライズされた理解、生成、画像編集を単一のアーキテクチャに統合する。
実験によると、OmniPersonaは多様なパーソナライゼーションタスクに対して、競争力と堅牢なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-01-11T15:46:34Z) - AnyMS: Bottom-up Attention Decoupling for Layout-guided and Training-free Multi-subject Customization [55.06425570300248]
我々はレイアウト誘導型マルチオブジェクトカスタマイズのためのトレーニングフリーフレームワークであるAnyMSを紹介する。
AnyMSはテキストプロンプト、主題画像、レイアウト制約という3つの入力条件を利用する。
AnyMSは最先端のパフォーマンスを達成し、複雑な構成をサポートし、より多くの課題にスケールする。
論文 参考訳(メタデータ) (2025-12-29T15:26:25Z) - Canvas-to-Image: Compositional Image Generation with Multimodal Controls [51.44122945214702]
Canvas-to-Imageは、異種制御を単一のキャンバスインターフェースに統合する統合フレームワークである。
私たちのキーとなるアイデアは、多様な制御信号を単一の合成キャンバス画像にエンコードすることで、モデルが統合された視覚空間的推論を解釈できるようにすることです。
論文 参考訳(メタデータ) (2025-11-26T18:59:56Z) - MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion [24.513096225720854]
本稿では,複数視点のポーズ制御とカスタマイズを共同で実現することを目的とした,新しいタスクであるマルチビューカスタマイズを提案する。
MVCustomは,多視点の一貫性とカスタマイズの整合性の両方を実現するために設計された,新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-10-15T16:00:26Z) - ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation [24.487453636504707]
マルチインスタンス生成のための新しいDiffusion TransformerフレームワークであるContextGenを紹介する。
ContextGenは、制御精度、アイデンティティの忠実度、全体的な視覚的品質において、既存の手法よりも優れた新しい最先端の手法を設定できることを示します。
論文 参考訳(メタデータ) (2025-10-13T04:21:19Z) - UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward [15.094319754425468]
UMOは,高忠実度ID保存の維持と,拡張性によるアイデンティティの混乱の軽減を目的としたフレームワークである。
UMOはマルチ・ツー・マルチマッチング(multi-to-multi matching)パラダイムを用いて、グローバルな割り当て最適化問題としてマルチアイデンティティ生成を再構成する。
我々は,合成部品と実部品の両方からなるマルチ参照画像を用いたスケーラブルなカスタマイズデータセットを開発した。
論文 参考訳(メタデータ) (2025-09-08T15:54:55Z) - CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models [85.69959024572363]
CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。
テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。
本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
論文 参考訳(メタデータ) (2023-10-30T17:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。