論文の概要: MagicFace: Training-free Universal-Style Human Image Customized Synthesis
- arxiv url: http://arxiv.org/abs/2408.07433v5
- Date: Mon, 18 Nov 2024 03:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:51.280832
- Title: MagicFace: Training-free Universal-Style Human Image Customized Synthesis
- Title(参考訳): MagicFace: トレーニング不要のユニバーサルスタイルの人体画像カスタマイズ合成
- Authors: Yibin Wang, Weizhong Zhang, Cheng Jin,
- Abstract要約: MagicFaceは、マルチコンセプトのユニバーサルなヒューマンイメージパーソナライズされた合成のためのトレーニング不要の方法である。
私たちの中核となる考え方は、人間が特定の概念を与えられた画像を作成する方法をシミュレートし、まずセマンティックなレイアウトを確立することです。
第1段階では、RSAは遅延画像がすべての参照概念から同時に特徴を問合せすることを可能にする。
- 参考スコア(独自算出の注目度): 13.944050414488911
- License:
- Abstract: Current human image customization methods leverage Stable Diffusion (SD) for its rich semantic prior. However, since SD is not specifically designed for human-oriented generation, these methods often require extensive fine-tuning on large-scale datasets, which renders them susceptible to overfitting and hinders their ability to personalize individuals with previously unseen styles. Moreover, these methods extensively focus on single-concept human image synthesis and lack the flexibility to customize individuals using multiple given concepts, thereby impeding their broader practical application. This paper proposes MagicFace, a novel training-free method for multi-concept universal-style human image personalized synthesis. Our core idea is to simulate how humans create images given specific concepts, i.e., first establish a semantic layout considering factors such as concepts' shape and posture, then optimize details by comparing with concepts at the pixel level. To implement this process, we introduce a coarse-to-fine generation pipeline, involving two sequential stages: semantic layout construction and concept feature injection. This is achieved by our Reference-aware Self-Attention (RSA) and Region-grouped Blend Attention (RBA) mechanisms. In the first stage, RSA enables the latent image to query features from all reference concepts simultaneously, extracting the overall semantic understanding to facilitate the initial semantic layout establishment. In the second stage, we employ an attention-based semantic segmentation method to pinpoint the latent generated regions of all concepts at each step. Following this, RBA divides the pixels of the latent image into semantic groups, with each group querying fine-grained features from the corresponding reference concept. Extensive experiments demonstrate the superiority of our MagicFace.
- Abstract(参考訳): 現在の人間の画像のカスタマイズ方法は、そのリッチなセマンティクスにSD(Stable Diffusion)を利用する。
しかし、SDは人為的な生成のために特別に設計されているわけではないため、これらの手法は大規模なデータセットに対して広範囲の微調整を必要とすることが多いため、それらが過度に適合し、これまで目に見えないスタイルで個人をパーソナライズする能力を妨げている。
さらに、これらの手法は、単一概念の人間の画像合成に重点を置いており、複数の概念を用いて個人をカスタマイズする柔軟性が欠如しているため、より広範な実践的応用を妨げている。
本稿では,マルチコンセプトユニバーサルな画像パーソナライズのための新しいトレーニングフリー手法であるMagicFaceを提案する。
私たちの中核的な考え方は、人間が特定の概念を与えられた画像を作る方法をシミュレートすること、すなわち、まず概念の形状や姿勢などの要素を考慮して意味的なレイアウトを確立し、それからピクセルレベルの概念と比較して詳細を最適化することである。
このプロセスを実現するために、セマンティックなレイアウト構築と概念的特徴注入という2つの逐次的な段階を含む粗粒度生成パイプラインを導入する。
これは、参照認識自己注意(RSA)と地域グループブレンド注意(RBA)機構によって達成される。
第1段階では、RSAにより、潜在画像がすべての参照概念から特徴を同時にクエリすることができ、全体的な意味理解を抽出して、初期意味的レイアウトの設定を容易にする。
第2段階では、各ステップですべての概念の潜在生成領域を特定するために、注意に基づくセマンティックセマンティックセマンティックセマンティクス法を用いる。
その後、RAAは潜像のピクセルを意味群に分割し、各グループが対応する参照概念から細かな特徴をクエリする。
大規模な実験は、MagicFaceの優位性を示しています。
関連論文リスト
- AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。
異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。
本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文 参考訳(メタデータ) (2024-05-28T08:50:14Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Global Context-Aware Person Image Generation [24.317541784957285]
文脈認識型人物画像生成のためのデータ駆動型アプローチを提案する。
本手法では,生成した人物の位置,規模,外観を,現場の既存人物に対して意味的に条件付けする。
論文 参考訳(メタデータ) (2023-02-28T16:34:55Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。