論文の概要: MagicFace: Training-free Universal-Style Human Image Customized Synthesis
- arxiv url: http://arxiv.org/abs/2408.07433v3
- Date: Mon, 19 Aug 2024 14:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 13:17:05.942583
- Title: MagicFace: Training-free Universal-Style Human Image Customized Synthesis
- Title(参考訳): MagicFace: トレーニング不要のユニバーサルスタイルの人体画像カスタマイズ合成
- Authors: Yibin Wang, Weizhong Zhang, Cheng Jin,
- Abstract要約: MagicFaceは、ユニバーサルスタイルのヒューマンイメージパーソナライズされた合成のためのトレーニング不要の方法である。
参照概念の機能を、ピクセルレベルの潜在生成領域に統合する。
人中心画像合成とマルチコンセプト画像カスタマイズの両方において,MagicFaceの優位性を示す実験を行った。
- 参考スコア(独自算出の注目度): 13.944050414488911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art methods for human image customized synthesis typically require tedious training on large-scale datasets. In such cases, they are prone to overfitting and struggle to personalize individuals of unseen styles. Moreover, these methods extensively focus on single-concept human image synthesis and lack the flexibility needed for customizing individuals with multiple given concepts, thereby impeding their broader practical application. To this end, we propose MagicFace, a novel training-free method for universal-style human image personalized synthesis, enabling multi-concept customization by accurately integrating reference concept features into their latent generated region at the pixel level. Specifically, MagicFace introduces a coarse-to-fine generation pipeline, involving two sequential stages: semantic layout construction and concept feature injection. This is achieved by our Reference-aware Self-Attention (RSA) and Region-grouped Blend Attention (RBA) mechanisms. In the first stage, RSA enables the latent image to query features from all reference concepts simultaneously, extracting the overall semantic understanding to facilitate the initial semantic layout establishment. In the second stage, we employ an attention-based semantic segmentation method to pinpoint the latent generated regions of all concepts at each step. Following this, RBA divides the pixels of the latent image into semantic groups, with each group querying fine-grained features from the corresponding reference concept, which ensures precise attribute alignment and feature injection. Throughout the generation process, a weighted mask strategy is employed to ensure the model focuses more on the reference concepts. Extensive experiments demonstrate the superiority of MagicFace in both human-centric subject-to-image synthesis and multi-concept human image customization.
- Abstract(参考訳): 人間の画像にカスタマイズされた合成のための最先端の手法は、通常、大規模なデータセットで面倒な訓練を必要とする。
このような場合、見知らぬスタイルの個人を人格化するのに過度に適合し、苦労する傾向にある。
さらに、これらの手法は、単一概念の人間の画像合成に重点を置いており、複数の概念を持つ個人をカスタマイズするために必要な柔軟性が欠如しているため、より広範な実践的応用を妨げている。
そこで本研究では,マルチコンセプトのカスタマイズを実現し,参照概念的特徴を画素レベルの潜在生成領域に正確に統合することで,汎用的な画像パーソナライズ合成のための新たなトレーニングフリー手法であるMagicFaceを提案する。
具体的には、MagicFaceは、セマンティックなレイアウト構築とコンセプト機能インジェクションという、2つのシーケンシャルステージを含む粗大な生成パイプラインを導入している。
これは、参照認識自己注意(RSA)と地域グループブレンド注意(RBA)機構によって達成される。
第1段階では、RSAにより、潜在画像がすべての参照概念から特徴を同時にクエリすることができ、全体的な意味理解を抽出して、初期意味的レイアウトの設定を容易にする。
第2段階では、各ステップですべての概念の潜在生成領域を特定するために、注意に基づくセマンティックセマンティックセマンティックセマンティクス法を用いる。
その後、RAAは潜像のピクセルをセマンティックグループに分割し、各グループが対応する参照概念から細かな特徴をクエリし、正確な属性アライメントと特徴注入を保証する。
生成プロセスを通じて、モデルが参照概念をより重視するように、重み付けマスク戦略が採用されている。
広汎な実験は、人間中心の被写体画像合成とマルチコンセプトの人間の画像カスタマイズの両方において、MagicFaceの優位性を実証している。
関連論文リスト
- AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。