Fugu-MT 論文翻訳(概要): MagicFace: Training-free Universal-Style Human Image Customized Synthesis

論文の概要: MagicFace: Training-free Universal-Style Human Image Customized Synthesis

arxiv url: http://arxiv.org/abs/2408.07433v4
Date: Sat, 09 Nov 2024 14:22:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.726836
Title: MagicFace: Training-free Universal-Style Human Image Customized Synthesis
Title（参考訳）: MagicFace: トレーニング不要のユニバーサルスタイルの人体画像カスタマイズ合成
Authors: Yibin Wang, Weizhong Zhang, Cheng Jin,
Abstract要約: MagicFaceは、マルチコンセプトのユニバーサルなヒューマンイメージパーソナライズされた合成のためのトレーニング不要の方法である。私たちの中核となる考え方は、人間が特定の概念を与えられた画像を作成する方法をシミュレートし、まずセマンティックなレイアウトを確立することです。第1段階では、RSAは遅延画像がすべての参照概念から同時に特徴を問合せすることを可能にする。
参考スコア（独自算出の注目度）: 13.944050414488911
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current human image customization methods leverage Stable Diffusion (SD) for its rich semantic prior. However, since SD is not specifically designed for human-oriented generation, these methods often require extensive fine-tuning on large-scale datasets, which renders them susceptible to overfitting and hinders their ability to personalize individuals with previously unseen styles. Moreover, these methods extensively focus on single-concept human image synthesis and lack the flexibility to customize individuals using multiple given concepts, thereby impeding their broader practical application. This paper proposes MagicFace, a novel training-free method for multi-concept universal-style human image personalized synthesis. Our core idea is to simulate how humans create images given specific concepts, i.e., first establish a semantic layout considering factors such as concepts' shape and posture, then optimize details by comparing with concepts at the pixel level. To implement this process, we introduce a coarse-to-fine generation pipeline, involving two sequential stages: semantic layout construction and concept feature injection. This is achieved by our Reference-aware Self-Attention (RSA) and Region-grouped Blend Attention (RBA) mechanisms. In the first stage, RSA enables the latent image to query features from all reference concepts simultaneously, extracting the overall semantic understanding to facilitate the initial semantic layout establishment. In the second stage, we employ an attention-based semantic segmentation method to pinpoint the latent generated regions of all concepts at each step. Following this, RBA divides the pixels of the latent image into semantic groups, with each group querying fine-grained features from the corresponding reference concept. Extensive experiments demonstrate the superiority of our MagicFace.
Abstract（参考訳）: 現在の人間の画像のカスタマイズ方法は、そのリッチなセマンティクスにSD(Stable Diffusion)を利用する。しかし、SDは人為的な生成のために特別に設計されているわけではないため、これらの手法は大規模なデータセットに対して広範囲の微調整を必要とすることが多いため、それらが過度に適合し、これまで目に見えないスタイルで個人をパーソナライズする能力を妨げている。さらに、これらの手法は、単一概念の人間の画像合成に重点を置いており、複数の概念を用いて個人をカスタマイズする柔軟性が欠如しているため、より広範な実践的応用を妨げている。本稿では,マルチコンセプトユニバーサルな画像パーソナライズのための新しいトレーニングフリー手法であるMagicFaceを提案する。私たちの中核的な考え方は、人間が特定の概念を与えられた画像を作る方法をシミュレートすること、すなわち、まず概念の形状や姿勢などの要素を考慮して意味的なレイアウトを確立し、それからピクセルレベルの概念と比較して詳細を最適化することである。このプロセスを実現するために、セマンティックなレイアウト構築と概念的特徴注入という2つの逐次的な段階を含む粗粒度生成パイプラインを導入する。これは、参照認識自己注意(RSA)と地域グループブレンド注意(RBA)機構によって達成される。第1段階では、RSAにより、潜在画像がすべての参照概念から特徴を同時にクエリすることができ、全体的な意味理解を抽出して、初期意味的レイアウトの設定を容易にする。第2段階では、各ステップですべての概念の潜在生成領域を特定するために、注意に基づくセマンティックセマンティックセマンティックセマンティクス法を用いる。その後、RAAは潜像のピクセルを意味群に分割し、各グループが対応する参照概念から細かな特徴をクエリする。大規模な実験は、MagicFaceの優位性を示しています。

関連論文リスト

OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-12-16T18:59:52Z)
AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文参考訳（メタデータ） (2024-05-28T08:50:14Z)
FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文参考訳（メタデータ） (2024-05-22T17:53:38Z)
MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。 MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文参考訳（メタデータ） (2024-04-08T07:59:04Z)
Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文参考訳（メタデータ） (2024-02-28T06:07:07Z)
Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T07:28:37Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文参考訳（メタデータ） (2023-02-23T18:46:41Z)
HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文参考訳（メタデータ） (2022-11-11T14:30:34Z)
ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文参考訳（メタデータ） (2022-10-12T06:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。