論文の概要: PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
- arxiv url: http://arxiv.org/abs/2312.04461v1
- Date: Thu, 7 Dec 2023 17:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:57:28.351841
- Title: PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
- Title(参考訳): photomaker: リアルな人間の写真をスタックid埋め込みでカスタマイズする
- Authors: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying
Shan
- Abstract要約: PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
- 参考スコア(独自算出の注目度): 102.07914175196817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image generation have made remarkable progress in
synthesizing realistic human photos conditioned on given text prompts. However,
existing personalized generation methods cannot simultaneously satisfy the
requirements of high efficiency, promising identity (ID) fidelity, and flexible
text controllability. In this work, we introduce PhotoMaker, an efficient
personalized text-to-image generation method, which mainly encodes an arbitrary
number of input ID images into a stack ID embedding for preserving ID
information. Such an embedding, serving as a unified ID representation, can not
only encapsulate the characteristics of the same input ID comprehensively, but
also accommodate the characteristics of different IDs for subsequent
integration. This paves the way for more intriguing and practically valuable
applications. Besides, to drive the training of our PhotoMaker, we propose an
ID-oriented data construction pipeline to assemble the training data. Under the
nourishment of the dataset constructed through the proposed pipeline, our
PhotoMaker demonstrates better ID preservation ability than test-time
fine-tuning based methods, yet provides significant speed improvements,
high-quality generation results, strong generalization capabilities, and a wide
range of applications. Our project page is available at
https://photo-maker.github.io/
- Abstract(参考訳): テキスト対画像生成の最近の進歩は、与えられたテキストプロンプトで条件付けられたリアルな人間の写真を合成する上で、顕著な進歩を遂げている。
しかし、既存のパーソナライズされた生成方法は、高い効率、有望なアイデンティティ(ID)忠実さ、柔軟なテキスト制御性の要件を同時に満たすことはできない。
本研究では,任意の数の入力id画像をスタックidにエンコードし,id情報を保存するための効率的なテキスト対画像生成手法であるphotomakerを提案する。
このような埋め込みは、統一ID表現として機能し、同一の入力IDの特徴を包括的にカプセル化するだけでなく、その後の統合のために異なるIDの特徴を収容することができる。
これにより、より興味深く実用的なアプリケーションへの道が開ける。
さらに,PhotoMakerのトレーニングを実行するために,トレーニングデータを組み立てるためのID指向のデータ構築パイプラインを提案する。
提案するパイプラインで構築したデータセットでは,テスト時の微調整に基づく方法よりも優れたid保存能力を示すとともに,大幅な高速化,高品質な生成結果,強力な一般化機能,幅広いアプリケーションを提供する。
プロジェクトページはhttps://photo-maker.github.io/で閲覧できます。
関連論文リスト
- Omni-ID: Holistic Identity Representation Designed for Generative Tasks [75.29174595706533]
Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。
様々な数の非構造化入力画像から情報を構造化表現に集約する。
様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-12T19:21:20Z) - ID-Patch: Robust ID Association for Group Photo Personalization [29.38844265790726]
ID-Patchは、アイデンティティと2D位置の堅牢な関連を提供する新しい方法である。
アプローチでは,同じ顔の特徴からIDパッチとID埋め込みを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:55:28Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter [23.690420512911146]
Inv-Adapter は,DDIM 画像の逆変換により事前学習したテキスト・ツー・イメージモデルを用いて,ID 画像の拡散領域表現を抽出する。
抽出したIDの高アライメントとテキスト・ツー・イメージ・モデルの中間的特徴から、それらをベース・テキスト・ツー・イメージ・モデルに効率的に組み込む。
提案したInv-Adapterは,IDのカスタマイズ生成とモデルスケールにおいて高い競争力を持つことを示す。
論文 参考訳(メタデータ) (2024-06-05T02:59:08Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。