Fugu-MT 論文翻訳(概要): UniVerse: A Unified Modulation Framework for Segmentation-Free,Disentangled Multi-Concept Personalization

論文の概要: UniVerse: A Unified Modulation Framework for Segmentation-Free,Disentangled Multi-Concept Personalization

arxiv url: http://arxiv.org/abs/2606.00351v2
Date: Tue, 02 Jun 2026 15:24:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 18:57:50.273534
Title: UniVerse: A Unified Modulation Framework for Segmentation-Free,Disentangled Multi-Concept Personalization
Title（参考訳）: UniVerse: セグメンテーションフリーのマルチコンセプトパーソナライゼーションのための統一的な変調フレームワーク
Authors: Quynh Phung, Sandesh Ghimire, Minsi Hu, Chung-Chi Tsai, Jia-Bin Huang,
Abstract要約: 拡散変換器におけるセグメンテーションフリー・アンタングル・マルチコンセプトパーソナライズのための統一変調フレームワークUniVerseを提案する。提案手法により,構成可能かつ分解可能な概念抽出が可能となり,対象オブジェクトの微細な局所化と表現が可能となった。提案手法は、より柔軟で、解釈可能で、パーソナライズされた視覚生成と理解のために、散在するシーンのターゲット概念を的確に抽出できることを示す。
参考スコア（独自算出の注目度）: 11.377511922332621
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Personalized visual understanding has advanced significantly, yet existing approaches struggle to localize and extract specific concepts when input images contain multiple objects. Many prior methods rely heavily on segmentation-based supervision or exhibit poor compositional generalization, limiting their ability to accurately disentangle and manipulate individual concepts. In this work, we propose UniVerse, a Unified Modulation Framework for segmentation-free, disentangled multi-concept personalization in diffusion transformers. Our method allows for composable and decomposable concept extraction, enabling fine-grained localization and representation of target objects without explicit segmentation masks. UniVerse learns to decompose complex scenes into concept-specific representations and then compose them in a unified manner, enabling robust personalization across diverse visual contexts. Through extensive experiments on multiple benchmarks, we demonstrate that UniVerse significantly outperforms state-of-the-art baselines in both localization accuracy and visual fidelity. Qualitative and quantitative results show that our approach can precisely extract target concepts in cluttered scenes, paving the way for more flexible, interpretable, and personalized visual generation and understanding.
Abstract（参考訳）: パーソナライズされた視覚的理解は著しく進歩しているが、既存のアプローチでは、入力画像が複数のオブジェクトを含む場合、特定の概念をローカライズし抽出するのに苦労している。従来の多くの手法はセグメンテーションに基づく監督に大きく依存していたり、作曲の一般化が貧弱であったりし、個々の概念を正確に切り離して操作する能力を制限していた。本研究では,UniVerseを提案する。UniVerseは,拡散トランスフォーマーにおけるセグメンテーションフリー,非絡み合ったマルチコンセプトパーソナライゼーションのための統一変調フレームワークである。提案手法では, 具体的で分解可能な概念抽出が可能であり, 明示的なセグメンテーションマスクを使わずに, 対象物体の微粒な局所化と表現が可能となる。 UniVerseは複雑なシーンを概念固有の表現に分解し、それらを統一的に構成し、多様な視覚的コンテキストにわたって堅牢なパーソナライズを可能にする。複数のベンチマークでの広範な実験により、UniVerseはローカライズ精度と視覚的忠実度の両方において最先端のベースラインを大幅に上回ることを示した。定性的かつ定量的な結果から, この手法はより柔軟で解釈可能で, パーソナライズされた視覚生成と理解のために, 散在するシーンのターゲット概念を的確に抽出できることが示唆された。

論文の概要: UniVerse: A Unified Modulation Framework for Segmentation-Free,Disentangled Multi-Concept Personalization

関連論文リスト