論文の概要: Unified Personalized Understanding, Generating and Editing
- arxiv url: http://arxiv.org/abs/2601.06965v1
- Date: Sun, 11 Jan 2026 15:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.090644
- Title: Unified Personalized Understanding, Generating and Editing
- Title(参考訳): 統一されたパーソナライズド理解・生成・編集
- Authors: Yu Zhong, Tianwei Lin, Ruike Zhu, Yuqian Yuan, Haoyu Zheng, Liang Liang, Wenqiao Zhang, Feifei Shao, Haoyuan Li, Wanggui He, Hao Jiang, Yueting Zhuang,
- Abstract要約: 統一LMMのためのエンドツーエンドパーソナライズフレームワークである textbf OmniPersona を提案する。
パーソナライズされた理解、生成、画像編集を単一のアーキテクチャに統合する。
実験によると、OmniPersonaは多様なパーソナライゼーションタスクに対して、競争力と堅牢なパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 54.5563878110386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified large multimodal models (LMMs) have achieved remarkable progress in general-purpose multimodal understanding and generation. However, they still operate under a ``one-size-fits-all'' paradigm and struggle to model user-specific concepts (e.g., generate a photo of \texttt{<maeve>}) in a consistent and controllable manner. Existing personalization methods typically rely on external retrieval, which is inefficient and poorly integrated into unified multimodal pipelines. Recent personalized unified models introduce learnable soft prompts to encode concept information, yet they either couple understanding and generation or depend on complex multi-stage training, leading to cross-task interference and ultimately to fuzzy or misaligned personalized knowledge. We present \textbf{OmniPersona}, an end-to-end personalization framework for unified LMMs that, for the first time, integrates personalized understanding, generation, and image editing within a single architecture. OmniPersona introduces structurally decoupled concept tokens, allocating dedicated subspaces for different tasks to minimize interference, and incorporates an explicit knowledge replay mechanism that propagates personalized attribute knowledge across tasks, enabling consistent personalized behavior. To systematically evaluate unified personalization, we propose \textbf{\texttt{OmniPBench}}, extending the public UnifyBench concept set with personalized editing tasks and cross-task evaluation protocols integrating understanding, generation, and editing. Experimental results demonstrate that OmniPersona delivers competitive and robust performance across diverse personalization tasks. We hope OmniPersona will serve as a strong baseline and spur further research on controllable, unified personalization.
- Abstract(参考訳): 統一大型マルチモーダルモデル (LMM) は汎用マルチモーダル理解と生成において顕著な進歩を遂げている。
しかし、まだ 'one-size-fits-all'' パラダイムの下で運用されており、ユーザ固有の概念(例: \texttt{<maeve>} の写真を生成する)を一貫した制御可能な方法でモデル化するのに苦労している。
既存のパーソナライズ手法は、通常は外部検索に依存しており、これは非効率で、統合されたマルチモーダルパイプラインに十分に統合されていない。
最近のパーソナライズされた統一モデルは、概念情報をエンコードするための学習可能なソフトプロンプトを導入しているが、それらは理解と生成を組み合わせたり、複雑なマルチステージトレーニングに依存する。
統一LMMのためのエンドツーエンドのパーソナライズフレームワークである \textbf{OmniPersona} を,初めて単一アーキテクチャにパーソナライズされた理解,生成,画像編集を統合する。
OmniPersonaは、構造的に分離された概念トークンを導入し、干渉を最小限にするために異なるタスク専用のサブスペースを割り当て、タスク間でパーソナライズされた属性知識を伝播し、一貫したパーソナライズされた振る舞いを可能にする明示的な知識再生メカニズムを組み込んだ。
統一されたパーソナライゼーションを体系的に評価するために、パーソナライズされた編集タスクと、理解、生成、編集を統合したクロスタスク評価プロトコルを備えた公開UnifyBenchの概念を拡張した「textbf{\texttt{OmniPBench}}」を提案する。
実験の結果、OmniPersonaは多様なパーソナライゼーションタスクにまたがって、競争力と堅牢なパフォーマンスを提供することが示された。
OmniPersonaが強力なベースラインとして機能し、コントロール可能で統一されたパーソナライゼーションに関するさらなる研究を促進することを願っている。
関連論文リスト
- Plug-and-Play Multi-Concept Adaptive Blending for High-Fidelity Text-to-Image Synthesis [0.0]
本稿では,高忠実度テキスト・トゥ・イメージ(T2I)生成のためのプラグイン・アンド・プレイマルチコンセプト・ブレンディングを提案する。
本手法は,各パーソナライズされた概念の意図した外観を忠実に反映するために,ガイド付き外観注意を利用する。
また,非個人化領域の整合性を維持するマスク誘導型ノイズミキシング戦略を提案する。
論文 参考訳(メタデータ) (2025-11-18T12:25:47Z) - MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion [24.513096225720854]
本稿では,複数視点のポーズ制御とカスタマイズを共同で実現することを目的とした,新しいタスクであるマルチビューカスタマイズを提案する。
MVCustomは,多視点の一貫性とカスタマイズの整合性の両方を実現するために設計された,新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-10-15T16:00:26Z) - Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。
PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。
また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:58:45Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-24T16:32:17Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。