論文の概要: MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement
- arxiv url: http://arxiv.org/abs/2509.01977v1
- Date: Tue, 02 Sep 2025 05:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.91802
- Title: MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement
- Title(参考訳): MOSAIC:対応性を考慮した多目的パーソナライズ・ジェネレーション
- Authors: Dong She, Siming Fu, Mushui Liu, Qiaoqiao Jin, Hualiang Wang, Mu Liu, Jidong Jiang,
- Abstract要約: マルチオブジェクト生成を再考する表現中心のフレームワークであるMOSAICを提案する。
我々の重要な洞察は、マルチオブジェクト生成は表現レベルで正確にセマンティックアライメントを必要とすることである。
本稿では,意味対応型アライメントの精度を高めるために,意味対応型アライメントアライメントの損失を提案する。
- 参考スコア(独自算出の注目度): 13.100620283631557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-subject personalized generation presents unique challenges in maintaining identity fidelity and semantic coherence when synthesizing images conditioned on multiple reference subjects. Existing methods often suffer from identity blending and attribute leakage due to inadequate modeling of how different subjects should interact within shared representation spaces. We present MOSAIC, a representation-centric framework that rethinks multi-subject generation through explicit semantic correspondence and orthogonal feature disentanglement. Our key insight is that multi-subject generation requires precise semantic alignment at the representation level - knowing exactly which regions in the generated image should attend to which parts of each reference. To enable this, we introduce SemAlign-MS, a meticulously annotated dataset providing fine-grained semantic correspondences between multiple reference subjects and target images, previously unavailable in this domain. Building on this foundation, we propose the semantic correspondence attention loss to enforce precise point-to-point semantic alignment, ensuring high consistency from each reference to its designated regions. Furthermore, we develop the multi-reference disentanglement loss to push different subjects into orthogonal attention subspaces, preventing feature interference while preserving individual identity characteristics. Extensive experiments demonstrate that MOSAIC achieves state-of-the-art performance on multiple benchmarks. Notably, while existing methods typically degrade beyond 3 subjects, MOSAIC maintains high fidelity with 4+ reference subjects, opening new possibilities for complex multi-subject synthesis applications.
- Abstract(参考訳): 多目的パーソナライズドジェネレーションは、複数の参照対象に条件付けされた画像の合成において、アイデンティティの忠実さとセマンティックコヒーレンスを維持する上で、ユニークな課題を示す。
既存の手法は、共有表現空間内で異なる対象がどのように相互作用すべきかのモデリングが不十分なため、アイデンティティブレンディングや属性リークに悩まされることが多い。
我々は,表現中心のフレームワークであるMOSAICについて,明示的な意味的対応と直交的特徴の絡み合いを通じて,多目的生成を再考する。
私たちのキーとなる洞察は、マルチオブジェクト生成は表現レベルで正確にセマンティックアライメントを必要とするということです。
これを実現するために,複数の参照対象と対象画像との微粒なセマンティック対応を提供するセマンティック・アノテート・データセットであるSemAlign-MSを導入する。
本研究は,各参照から指定された領域への高整合性を確保するために,正確なポイント・ツー・ポイント・セマンティックアライメントを強制する意味対応アテンションアテンションアテンションロスを提案する。
さらに,異なる対象を直交的注意部分空間にプッシュし,個々のアイデンティティ特性を保ちながら特徴的干渉を防止できるマルチ参照不整合損失を開発した。
大規模な実験により、MOSAICは複数のベンチマークで最先端のパフォーマンスを達成することが示された。
特に、既存の手法は一般に3つ以上の被写体を分解するが、MOSAICは4つ以上の参照対象を持つ高い忠実度を維持し、複雑な多目的合成の新たな可能性を開く。
関連論文リスト
- Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization [27.114395240088562]
理想的な主観的表現は、相互差分的な視点、すなわち、主観的本質的属性と無関係な属性とを対照的な学習を通して分離することで達成できると主張する。
具体的には、マルチレベルコントラスト学習パラダイムとMFI(Multimodal Feature Injection)を含む新しいフレームワークであるCustomContrastを提案する。
広範囲な実験は、主題の類似性とテキスト制御性におけるCustomContrastの有効性を示している。
論文 参考訳(メタデータ) (2024-09-09T13:39:47Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。