論文の概要: MagicFace: Training-free Universal-Style Human Image Customized Synthesis
- arxiv url: http://arxiv.org/abs/2408.07433v2
- Date: Thu, 15 Aug 2024 15:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 12:40:10.655900
- Title: MagicFace: Training-free Universal-Style Human Image Customized Synthesis
- Title(参考訳): MagicFace: トレーニング不要のユニバーサルスタイルの人体画像カスタマイズ合成
- Authors: Yibin Wang, Weizhong Zhang, Cheng Jin,
- Abstract要約: MagicFaceは、ユニバーサルスタイルのヒューマンイメージパーソナライズされた合成方法である。
トレーニング不要な方法で、任意のスタイルの人間に対して、シングル/マルチコンセプトのカスタマイズを可能にする。
- 参考スコア(独自算出の注目度): 13.944050414488911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing human image personalized generation methods often require tedious training: either fine-tuning with a few images or retraining on large-scale datasets. In such cases, these methods are prone to overfitting and encounter difficulties when personalizing individuals of diverse styles. Moreover, these training-based approaches also struggle with multi-concept human image customizing. To this end, we propose MagicFace, the first method for universal-style human image personalized synthesis that enables single/multi-concept customization for humans of any style in a training-free manner. MagicFace introduces a coarse-to-fine generation pipeline, involving two sequential stages: semantic scene construction and concept feature injection. This is achieved by our Reference-aware Self-Attention (RSA) and Region-grouped Blend Attention (RBA) mechanisms. Specifically, in the first stage, RSA enables the latent image to query features from reference concepts simultaneously, extracting the coarse-grained overall semantic understanding to facilitate the initial semantic layout establishment. In the second stage, we employ an attention-based semantic segmentation method to pinpoint the generated regions of all concepts in the latent image at each step. Following this, RBA divides the pixels of the latent image into semantic groups, with each group querying fine-grained features from its reference concept, which ensures precise attribute alignment and feature injection. Throughout the two-stage process, a weight mask strategy is employed to ensure the model focuses more on the reference concepts. Extensive experiments demonstrate our superiority in both human-centric subject-to-image synthesis and multi-concept human image customization. Our approach also can be applied to texture transformation, further enhancing its versatility and applicability.
- Abstract(参考訳): 既存の画像パーソナライズされた生成方法は、いくつかのイメージで微調整するか、大規模なデータセットで再トレーニングするといった面倒なトレーニングを必要とすることが多い。
このような場合、様々なスタイルの個人をパーソナライズする場合、これらの手法は過度に適合し、困難に遭遇する傾向にある。
さらに、これらのトレーニングベースのアプローチは、マルチコンセプトのヒューマンイメージのカスタマイズにも苦労する。
そこで本研究では,任意のスタイルの人間に対して,学習自由な方法で単一/複数概念のカスタマイズを可能にする,ユニバーサルスタイルの人体画像パーソナライズ合成の最初の方法であるMagicFaceを提案する。
MagicFaceは、セマンティックシーンの構築とコンセプト機能インジェクションという、2つのシーケンシャルステージを含む粗大な生成パイプラインを導入している。
これは、参照認識自己注意(RSA)と地域グループブレンド注意(RBA)機構によって達成される。
特に、第1段階では、RSAにより、潜在画像が参照概念から特徴を同時にクエリすることができ、粗い全体意味理解を抽出して、初期意味的レイアウトの設定を容易にする。
第2段階では、各ステップで潜在画像中のすべての概念の生成された領域をピンポイントするアテンションベースのセマンティックセマンティックセマンティックセマンティクス法を用いる。
その後、RAAは潜像のピクセルをセマンティックグループに分割し、各グループが参照概念から細かな特徴をクエリし、正確な属性アライメントと特徴注入を保証する。
2段階のプロセスを通じて、モデルが参照概念をより重視するように、ウェイトマスク戦略が採用されている。
広汎な実験は、人間中心の被写体画像合成とマルチコンセプトのヒト画像カスタマイズの両方において、我々の優位性を実証している。
我々の手法はテクスチャ変換にも適用でき、その汎用性と適用性をさらに向上させることができる。
関連論文リスト
- AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。