論文の概要: PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
- arxiv url: http://arxiv.org/abs/2312.04461v1
- Date: Thu, 7 Dec 2023 17:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:57:28.351841
- Title: PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
- Title(参考訳): photomaker: リアルな人間の写真をスタックid埋め込みでカスタマイズする
- Authors: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying
Shan
- Abstract要約: PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
- 参考スコア(独自算出の注目度): 102.07914175196817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image generation have made remarkable progress in
synthesizing realistic human photos conditioned on given text prompts. However,
existing personalized generation methods cannot simultaneously satisfy the
requirements of high efficiency, promising identity (ID) fidelity, and flexible
text controllability. In this work, we introduce PhotoMaker, an efficient
personalized text-to-image generation method, which mainly encodes an arbitrary
number of input ID images into a stack ID embedding for preserving ID
information. Such an embedding, serving as a unified ID representation, can not
only encapsulate the characteristics of the same input ID comprehensively, but
also accommodate the characteristics of different IDs for subsequent
integration. This paves the way for more intriguing and practically valuable
applications. Besides, to drive the training of our PhotoMaker, we propose an
ID-oriented data construction pipeline to assemble the training data. Under the
nourishment of the dataset constructed through the proposed pipeline, our
PhotoMaker demonstrates better ID preservation ability than test-time
fine-tuning based methods, yet provides significant speed improvements,
high-quality generation results, strong generalization capabilities, and a wide
range of applications. Our project page is available at
https://photo-maker.github.io/
- Abstract(参考訳): テキスト対画像生成の最近の進歩は、与えられたテキストプロンプトで条件付けられたリアルな人間の写真を合成する上で、顕著な進歩を遂げている。
しかし、既存のパーソナライズされた生成方法は、高い効率、有望なアイデンティティ(ID)忠実さ、柔軟なテキスト制御性の要件を同時に満たすことはできない。
本研究では,任意の数の入力id画像をスタックidにエンコードし,id情報を保存するための効率的なテキスト対画像生成手法であるphotomakerを提案する。
このような埋め込みは、統一ID表現として機能し、同一の入力IDの特徴を包括的にカプセル化するだけでなく、その後の統合のために異なるIDの特徴を収容することができる。
これにより、より興味深く実用的なアプリケーションへの道が開ける。
さらに,PhotoMakerのトレーニングを実行するために,トレーニングデータを組み立てるためのID指向のデータ構築パイプラインを提案する。
提案するパイプラインで構築したデータセットでは,テスト時の微調整に基づく方法よりも優れたid保存能力を示すとともに,大幅な高速化,高品質な生成結果,強力な一般化機能,幅広いアプリケーションを提供する。
プロジェクトページはhttps://photo-maker.github.io/で閲覧できます。
関連論文リスト
- ID-Patch: Robust ID Association for Group Photo Personalization [29.38844265790726]
ID-Patchは、アイデンティティと2D位置の堅牢な関連を提供する新しい方法である。
アプローチでは,同じ顔の特徴からIDパッチとID埋め込みを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:55:28Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter [23.690420512911146]
Inv-Adapter は,DDIM 画像の逆変換により事前学習したテキスト・ツー・イメージモデルを用いて,ID 画像の拡散領域表現を抽出する。
抽出したIDの高アライメントとテキスト・ツー・イメージ・モデルの中間的特徴から、それらをベース・テキスト・ツー・イメージ・モデルに効率的に組み込む。
提案したInv-Adapterは,IDのカスタマイズ生成とモデルスケールにおいて高い競争力を持つことを示す。
論文 参考訳(メタデータ) (2024-06-05T02:59:08Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。