論文の概要: UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization
- arxiv url: http://arxiv.org/abs/2408.05939v2
- Date: Fri, 6 Sep 2024 14:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-09 18:10:23.884290
- Title: UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization
- Title(参考訳): UniPortrait: アイデンティティ保護のための統一フレームワーク
- Authors: Junjie He, Yifeng Geng, Liefeng Bo,
- Abstract要約: UniPortraitは、シングルIDとマルチIDのカスタマイズを統一する革新的なヒューマンイメージパーソナライズフレームワークである。
UniPortraitは、ID埋め込みモジュールとIDルーティングモジュールの2つのプラグイン・アンド・プレイモジュールで構成されている。
- 参考スコア(独自算出の注目度): 10.760799194716922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents UniPortrait, an innovative human image personalization framework that unifies single- and multi-ID customization with high face fidelity, extensive facial editability, free-form input description, and diverse layout generation. UniPortrait consists of only two plug-and-play modules: an ID embedding module and an ID routing module. The ID embedding module extracts versatile editable facial features with a decoupling strategy for each ID and embeds them into the context space of diffusion models. The ID routing module then combines and distributes these embeddings adaptively to their respective regions within the synthesized image, achieving the customization of single and multiple IDs. With a carefully designed two-stage training scheme, UniPortrait achieves superior performance in both single- and multi-ID customization. Quantitative and qualitative experiments demonstrate the advantages of our method over existing approaches as well as its good scalability, e.g., the universal compatibility with existing generative control tools. The project page is at https://aigcdesigngroup.github.io/UniPortrait-Page/ .
- Abstract(参考訳): UniPortraitは、顔の忠実度、顔の編集性、自由な入力記述、多彩なレイアウト生成を両立させる革新的な人体画像パーソナライゼーションフレームワークである。
UniPortraitは、ID埋め込みモジュールとIDルーティングモジュールの2つのプラグイン・アンド・プレイモジュールで構成されている。
ID埋め込みモジュールは、各IDの切り離し戦略で多彩な編集可能な顔の特徴を抽出し、拡散モデルのコンテキスト空間に埋め込む。
次に、IDルーティングモジュールは、これらの埋め込みを合成画像内の各領域に適応的に結合し、単一のIDと複数のIDをカスタマイズする。
慎重に設計された2段階のトレーニングスキームにより、UniPortraitはシングルIDとマルチIDのカスタマイズにおいて優れたパフォーマンスを実現している。
定量的および定性的な実験は、既存の手法に対する我々の手法の利点を実証し、その優れたスケーラビリティ、例えば、既存の生成制御ツールとの普遍的な互換性を示す。
プロジェクトのページはhttps://aigcdesigngroup.github.io/UniPortrait-Page/にある。
関連論文リスト
- Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement [54.199726425201895]
大規模モデルのマルチモーダル編集は、様々なタスクにまたがる強力な編集機能を示している。
現在の顔認証保存法は、顔認証と編集済み要素IPの整合性回復に苦慮している。
そこで我々は,頑健なアイデンティティ特異的顔復元のためのアライメント・ディスタングルメント・アンタングルメント・フレームワークであるEditedIDを提案する。
論文 参考訳(メタデータ) (2026-02-21T08:24:42Z) - Unified Personalized Understanding, Generating and Editing [54.5563878110386]
統一LMMのためのエンドツーエンドパーソナライズフレームワークである textbf OmniPersona を提案する。
パーソナライズされた理解、生成、画像編集を単一のアーキテクチャに統合する。
実験によると、OmniPersonaは多様なパーソナライゼーションタスクに対して、競争力と堅牢なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-01-11T15:46:34Z) - Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - UniLayDiff: A Unified Diffusion Transformer for Content-Aware Layout Generation [54.38636515750502]
コンテンツ対応レイアウト生成タスクのための統一拡散変換器UniLayDiffを提案する。
我々は、背景画像、レイアウト要素、および多様な制約の間の複雑な相互作用を捉えるために、マルチモード拡散トランスフォーマフレームワークを使用します。
実験により、UniLayDiffは条件のないタスクから様々な条件生成タスクにまたがって最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-09T18:38:44Z) - Training for Identity, Inference for Controllability: A Unified Approach to Tuning-Free Face Personalization [16.851646868288135]
両パラダイムを相乗的に統合する統合チューニングフリーフレームワークであるUniIDを紹介する。
私たちの重要な洞察は、これらのアプローチを統合する際には、アイデンティティ関連情報のみを相互に強化する必要があるということです。
この原則により、UniIDはフレキシブルテキスト制御性を備えた高忠実な顔のパーソナライゼーションを実現することができる。
論文 参考訳(メタデータ) (2025-12-03T16:57:50Z) - A Training-Free Approach for Multi-ID Customization via Attention Adjustment and Spatial Control [7.810140287905315]
マルチIDのカスタマイズはより難しく、2つの大きな課題を提起する。
推論中にしばしばコピーペースト問題に遭遇し、品質が低下する。
画像領域に異なるID埋め込みを注入するID分離型クロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2025-11-25T15:28:10Z) - UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward [15.094319754425468]
UMOは,高忠実度ID保存の維持と,拡張性によるアイデンティティの混乱の軽減を目的としたフレームワークである。
UMOはマルチ・ツー・マルチマッチング(multi-to-multi matching)パラダイムを用いて、グローバルな割り当て最適化問題としてマルチアイデンティティ生成を再構成する。
我々は,合成部品と実部品の両方からなるマルチ参照画像を用いたスケーラブルなカスタマイズデータセットを開発した。
論文 参考訳(メタデータ) (2025-09-08T15:54:55Z) - Concat-ID: Towards Universal Identity-Preserving Video Synthesis [23.40342294656802]
本稿では、アイデンティティ保存ビデオ合成のための統合フレームワークであるConcat-IDを提案する。
Concat-IDはオートエンコーダを使って画像の特徴を抽出する。
整合性と顔の編集性のバランスをとるために、新しいクロスビデオペアリング戦略とマルチステージトレーニングレギュラーを導入する。
論文 参考訳(メタデータ) (2025-03-18T11:17:32Z) - DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability [12.692129257068085]
DynamicIDは、デュアルステージトレーニングパラダイムでサポートされているチューニング不要のフレームワークである。
VariFace-10k顔データセットは,それぞれ35種類の顔画像で表現された10k個の個人からなる。
論文 参考訳(メタデータ) (2025-03-09T08:16:19Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - Omni-ID: Holistic Identity Representation Designed for Generative Tasks [75.29174595706533]
Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。
様々な数の非構造化入力画像から情報を構造化表現に集約する。
様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-12T19:21:20Z) - CustAny: Customizing Anything from A Single Example [73.90939022698399]
10kカテゴリにわたる315kのテキストイメージサンプルを特徴とする,汎用オブジェクトの大規模なデータセットを構築するための新しいパイプラインを提案する。
MC-IDCの助けを借りて、汎用オブジェクトの柔軟なテキスト編集をサポートするゼロショットフレームワークであるCustomizing Anything (CustAny)を紹介した。
当社のコントリビューションには、大規模なデータセット、CustAnyフレームワーク、新しいID処理などが含まれています。
論文 参考訳(メタデータ) (2024-06-17T15:26:22Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。
トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文 参考訳(メタデータ) (2024-03-20T12:13:04Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion [81.7514869897233]
トレーニング不要なマルチモーダルLLMエージェント (MuLan) を人体画家として開発し, 段階的にマルチオブジェクトを生成する。
MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。
MuLanはまた、視覚言語モデル(VLM)を採用して、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して、元のプロンプトに反した場合に画像を再生成する。
論文 参考訳(メタデータ) (2024-02-20T06:14:30Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。