論文の概要: A Training-Free Approach for Multi-ID Customization via Attention Adjustment and Spatial Control
- arxiv url: http://arxiv.org/abs/2511.20401v1
- Date: Tue, 25 Nov 2025 15:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.523819
- Title: A Training-Free Approach for Multi-ID Customization via Attention Adjustment and Spatial Control
- Title(参考訳): 注意調整と空間制御によるマルチIDカスタマイズのための学習自由アプローチ
- Authors: Jiawei Lin, Guanlong Jiao, Jianjin Xu,
- Abstract要約: マルチIDのカスタマイズはより難しく、2つの大きな課題を提起する。
推論中にしばしばコピーペースト問題に遭遇し、品質が低下する。
画像領域に異なるID埋め込みを注入するID分離型クロスアテンション機構を提案する。
- 参考スコア(独自算出の注目度): 7.810140287905315
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-ID customization is an interesting topic in computer vision and attracts considerable attention recently. Given the ID images of multiple individuals, its purpose is to generate a customized image that seamlessly integrates them while preserving their respective identities. Compared to single-ID customization, multi-ID customization is much more difficult and poses two major challenges. First, since the multi-ID customization model is trained to reconstruct an image from the cropped person regions, it often encounters the copy-paste issue during inference, leading to lower quality. Second, the model also suffers from inferior text controllability. The generated result simply combines multiple persons into one image, regardless of whether it is aligned with the input text. In this work, we propose MultiID to tackle this challenging task in a training-free manner. Since the existing single-ID customization models have less copy-paste issue, our key idea is to adapt these models to achieve multi-ID customization. To this end, we present an ID-decoupled cross-attention mechanism, injecting distinct ID embeddings into the corresponding image regions and thus generating multi-ID outputs. To enhance the generation controllability, we introduce three critical strategies, namely the local prompt, depth-guided spatial control, and extended self-attention, making the results more consistent with the text prompts and ID images. We also carefully build a benchmark, called IDBench, for evaluation. The extensive qualitative and quantitative results demonstrate the effectiveness of MultiID in solving the aforementioned two challenges. Its performance is comparable or even better than the training-based multi-ID customization methods.
- Abstract(参考訳): マルチIDのカスタマイズはコンピュータビジョンにおける興味深いトピックであり、近年は注目されている。
複数の人物のID画像が与えられた場合、その目的は、それぞれのアイデンティティを保存しながらシームレスに統合する、カスタマイズされた画像を作成することである。
シングルIDのカスタマイズに比べ、マルチIDのカスタマイズはより困難であり、2つの大きな課題を提起する。
第一に、マルチIDカスタマイズモデルは、収穫された人物領域からの画像を再構成するために訓練されているため、推論中にコピーペースト問題に遭遇することが多く、品質が低下する。
第二に、このモデルはテキストの制御性も劣っている。
生成された結果は、入力テキストに一致しているかどうかにかかわらず、複数の人物を1つの画像に簡単に組み合わせる。
本研究では,この課題に対処するためのMultiIDを提案する。
既存のシングルIDカスタマイズモデルではコピーペーストの問題が少ないため、これらのモデルをマルチIDカスタマイズに適応させることが重要なアイデアです。
そこで本研究では,各画像領域に異なるID埋め込みを注入し,複数のID出力を生成する,ID分離型クロスアテンション機構を提案する。
生成制御性を高めるために,ローカルプロンプト,奥行き誘導空間制御,拡張自己注意という3つの重要な戦略を導入し,テキストプロンプトとID画像との整合性を高めた。
また、評価のためにIDBenchと呼ばれるベンチマークも慎重に構築しています。
以上の2つの課題を解く上で,MultiIDの有効性を定量的に検証した。
その性能は、トレーニングベースのマルチIDカスタマイズ方法に匹敵するか、それ以上に優れている。
関連論文リスト
- WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。
マルチパーソンシナリオに適した大規模ペアデータセットを開発する。
本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:54Z) - UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward [15.094319754425468]
UMOは,高忠実度ID保存の維持と,拡張性によるアイデンティティの混乱の軽減を目的としたフレームワークである。
UMOはマルチ・ツー・マルチマッチング(multi-to-multi matching)パラダイムを用いて、グローバルな割り当て最適化問題としてマルチアイデンティティ生成を再構成する。
我々は,合成部品と実部品の両方からなるマルチ参照画像を用いたスケーラブルなカスタマイズデータセットを開発した。
論文 参考訳(メタデータ) (2025-09-08T15:54:55Z) - DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability [12.692129257068085]
シングルIDとマルチIDパーソナライズされた生成を本質的に促進する,チューニング不要なフレームワークであるDynamicIDを提案する。
主なイノベーションは,(1)ID特徴注入時のベースモデルの破壊を最小限に抑えるためのクエリレベルのアクティベーションゲーティング(SAA)と,トレーニング中に複数IDサンプルを必要とせずにマルチIDパーソナライゼーションを実現するためのクエリレベルのアクティベートゲーティングゲーティング(SAA),2)顔の動作とアイデンティティ機能を効果的にアンタングルするために特徴空間操作を適用したID-Motion Reconfigurator(IMR),3)データ依存を減らすタスク分離トレーニングパラダイムであるVariFace-10k(VariFace-10k)である。
論文 参考訳(メタデータ) (2025-03-09T08:16:19Z) - ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。
本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。
本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-27T10:34:14Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。