論文の概要: UniVerse: A Unified Modulation Framework for Segmentation-Free,Disentangled Multi-Concept Personalization
- arxiv url: http://arxiv.org/abs/2606.00351v2
- Date: Tue, 02 Jun 2026 15:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.273534
- Title: UniVerse: A Unified Modulation Framework for Segmentation-Free,Disentangled Multi-Concept Personalization
- Title(参考訳): UniVerse: セグメンテーションフリーのマルチコンセプトパーソナライゼーションのための統一的な変調フレームワーク
- Authors: Quynh Phung, Sandesh Ghimire, Minsi Hu, Chung-Chi Tsai, Jia-Bin Huang,
- Abstract要約: 拡散変換器におけるセグメンテーションフリー・アンタングル・マルチコンセプトパーソナライズのための統一変調フレームワークUniVerseを提案する。
提案手法により,構成可能かつ分解可能な概念抽出が可能となり,対象オブジェクトの微細な局所化と表現が可能となった。
提案手法は、より柔軟で、解釈可能で、パーソナライズされた視覚生成と理解のために、散在するシーンのターゲット概念を的確に抽出できることを示す。
- 参考スコア(独自算出の注目度): 11.377511922332621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized visual understanding has advanced significantly, yet existing approaches struggle to localize and extract specific concepts when input images contain multiple objects. Many prior methods rely heavily on segmentation-based supervision or exhibit poor compositional generalization, limiting their ability to accurately disentangle and manipulate individual concepts. In this work, we propose UniVerse, a Unified Modulation Framework for segmentation-free, disentangled multi-concept personalization in diffusion transformers. Our method allows for composable and decomposable concept extraction, enabling fine-grained localization and representation of target objects without explicit segmentation masks. UniVerse learns to decompose complex scenes into concept-specific representations and then compose them in a unified manner, enabling robust personalization across diverse visual contexts. Through extensive experiments on multiple benchmarks, we demonstrate that UniVerse significantly outperforms state-of-the-art baselines in both localization accuracy and visual fidelity. Qualitative and quantitative results show that our approach can precisely extract target concepts in cluttered scenes, paving the way for more flexible, interpretable, and personalized visual generation and understanding.
- Abstract(参考訳): パーソナライズされた視覚的理解は著しく進歩しているが、既存のアプローチでは、入力画像が複数のオブジェクトを含む場合、特定の概念をローカライズし抽出するのに苦労している。
従来の多くの手法はセグメンテーションに基づく監督に大きく依存していたり、作曲の一般化が貧弱であったりし、個々の概念を正確に切り離して操作する能力を制限していた。
本研究では,UniVerseを提案する。UniVerseは,拡散トランスフォーマーにおけるセグメンテーションフリー,非絡み合ったマルチコンセプトパーソナライゼーションのための統一変調フレームワークである。
提案手法では, 具体的で分解可能な概念抽出が可能であり, 明示的なセグメンテーションマスクを使わずに, 対象物体の微粒な局所化と表現が可能となる。
UniVerseは複雑なシーンを概念固有の表現に分解し、それらを統一的に構成し、多様な視覚的コンテキストにわたって堅牢なパーソナライズを可能にする。
複数のベンチマークでの広範な実験により、UniVerseはローカライズ精度と視覚的忠実度の両方において最先端のベースラインを大幅に上回ることを示した。
定性的かつ定量的な結果から, この手法はより柔軟で解釈可能で, パーソナライズされた視覚生成と理解のために, 散在するシーンのターゲット概念を的確に抽出できることが示唆された。
関連論文リスト
- Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。