論文の概要: UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward
- arxiv url: http://arxiv.org/abs/2509.06818v1
- Date: Mon, 08 Sep 2025 15:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.227249
- Title: UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward
- Title(参考訳): UMO:マッチングリワードによる画像カスタマイズのためのマルチアイデンティティ一貫性のスケーリング
- Authors: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He,
- Abstract要約: UMOは,高忠実度ID保存の維持と,拡張性によるアイデンティティの混乱の軽減を目的としたフレームワークである。
UMOはマルチ・ツー・マルチマッチング(multi-to-multi matching)パラダイムを用いて、グローバルな割り当て最適化問題としてマルチアイデンティティ生成を再構成する。
我々は,合成部品と実部品の両方からなるマルチ参照画像を用いたスケーラブルなカスタマイズデータセットを開発した。
- 参考スコア(独自算出の注目度): 15.094319754425468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in image customization exhibit a wide range of application prospects due to stronger customization capabilities. However, since we humans are more sensitive to faces, a significant challenge remains in preserving consistent identity while avoiding identity confusion with multi-reference images, limiting the identity scalability of customization models. To address this, we present UMO, a Unified Multi-identity Optimization framework, designed to maintain high-fidelity identity preservation and alleviate identity confusion with scalability. With "multi-to-multi matching" paradigm, UMO reformulates multi-identity generation as a global assignment optimization problem and unleashes multi-identity consistency for existing image customization methods generally through reinforcement learning on diffusion models. To facilitate the training of UMO, we develop a scalable customization dataset with multi-reference images, consisting of both synthesised and real parts. Additionally, we propose a new metric to measure identity confusion. Extensive experiments demonstrate that UMO not only improves identity consistency significantly, but also reduces identity confusion on several image customization methods, setting a new state-of-the-art among open-source methods along the dimension of identity preserving. Code and model: https://github.com/bytedance/UMO
- Abstract(参考訳): 画像カスタマイズの最近の進歩は、より強力なカスタマイズ機能により、幅広い応用可能性を示している。
しかし、人間は顔に敏感であるため、多参照画像との同一性混同を避けながら一貫した同一性を維持することには大きな課題が残っており、カスタマイズモデルの同一性拡張性は制限されている。
この問題を解決するために,統一多元性最適化フレームワークであるUMOを提案する。
UMOはマルチ・ツー・マルチマッチング(multi-to-multi matching)パラダイムを用いて、グローバルな割り当て最適化問題としてマルチアイデンティティ生成を再構成し、拡散モデルによる強化学習を通じて、既存の画像カスタマイズ手法に対するマルチアイデンティティ一貫性を開放する。
UMOのトレーニングを容易にするために,合成部品と実部品の両方からなるマルチ参照画像を用いたスケーラブルなカスタマイズデータセットを開発した。
さらに,アイデンティティの混乱を測定するための新しい指標を提案する。
大規模な実験により、UMOはアイデンティティの整合性を大幅に改善するだけでなく、いくつかのイメージのカスタマイズ方法におけるアイデンティティの混乱を低減し、アイデンティティ保存の次元に沿って、オープンソースのメソッドに新しい最先端の技術を設定できることを示した。
コードとモデル:https://github.com/bytedance/UMO
関連論文リスト
- ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。
本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。
本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-27T10:34:14Z) - Omni-ID: Holistic Identity Representation Designed for Generative Tasks [75.29174595706533]
Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。
様々な数の非構造化入力画像から情報を構造化表現に集約する。
様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-12T19:21:20Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。
トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文 参考訳(メタデータ) (2024-03-20T12:13:04Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - X-ReID: Cross-Instance Transformer for Identity-Level Person
Re-Identification [53.047542904329866]
Cross-Identity Instancesモジュール(IntraX)は、ID-Levelの知識を転送するために、異なるIdentityインスタンスをフューズする。
Cross Inter-Identity Instancesモジュール(InterX)は、同じアイデンティティに対する注意応答を改善するために、ハードポジティとハードポジティのインスタンスを含む。
論文 参考訳(メタデータ) (2023-02-04T03:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。