Fugu-MT 論文翻訳(概要): PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

論文の概要: PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

arxiv url: http://arxiv.org/abs/2312.04461v1
Date: Thu, 7 Dec 2023 17:32:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 13:57:28.351841
Title: PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
Title（参考訳）: photomaker: リアルな人間の写真をスタックid埋め込みでカスタマイズする
Authors: Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan
Abstract要約: PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
参考スコア（独自算出の注目度）: 102.07914175196817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in text-to-image generation have made remarkable progress in synthesizing realistic human photos conditioned on given text prompts. However, existing personalized generation methods cannot simultaneously satisfy the requirements of high efficiency, promising identity (ID) fidelity, and flexible text controllability. In this work, we introduce PhotoMaker, an efficient personalized text-to-image generation method, which mainly encodes an arbitrary number of input ID images into a stack ID embedding for preserving ID information. Such an embedding, serving as a unified ID representation, can not only encapsulate the characteristics of the same input ID comprehensively, but also accommodate the characteristics of different IDs for subsequent integration. This paves the way for more intriguing and practically valuable applications. Besides, to drive the training of our PhotoMaker, we propose an ID-oriented data construction pipeline to assemble the training data. Under the nourishment of the dataset constructed through the proposed pipeline, our PhotoMaker demonstrates better ID preservation ability than test-time fine-tuning based methods, yet provides significant speed improvements, high-quality generation results, strong generalization capabilities, and a wide range of applications. Our project page is available at https://photo-maker.github.io/
Abstract（参考訳）: テキスト対画像生成の最近の進歩は、与えられたテキストプロンプトで条件付けられたリアルな人間の写真を合成する上で、顕著な進歩を遂げている。しかし、既存のパーソナライズされた生成方法は、高い効率、有望なアイデンティティ(ID)忠実さ、柔軟なテキスト制御性の要件を同時に満たすことはできない。本研究では,任意の数の入力id画像をスタックidにエンコードし,id情報を保存するための効率的なテキスト対画像生成手法であるphotomakerを提案する。このような埋め込みは、統一ID表現として機能し、同一の入力IDの特徴を包括的にカプセル化するだけでなく、その後の統合のために異なるIDの特徴を収容することができる。これにより、より興味深く実用的なアプリケーションへの道が開ける。さらに,PhotoMakerのトレーニングを実行するために,トレーニングデータを組み立てるためのID指向のデータ構築パイプラインを提案する。提案するパイプラインで構築したデータセットでは,テスト時の微調整に基づく方法よりも優れたid保存能力を示すとともに,大幅な高速化,高品質な生成結果,強力な一般化機能,幅広いアプリケーションを提供する。プロジェクトページはhttps://photo-maker.github.io/で閲覧できます。

関連論文リスト

ID-EA: Identity-driven Text Enhancement and Adaptation with Textual Inversion for Personalized Text-to-Image Generation [33.84646269805187]
ID-EAは、テキストの埋め込みを視覚的アイデンティティの埋め込みに合わせてガイドする新しいフレームワークである。 ID-EAはアイデンティティ保存の指標において最先端の手法を大幅に上回っている。パーソナライズされた肖像画は、既存のアプローチの15倍の速さで生成される。
論文参考訳（メタデータ） (2025-07-16T07:42:02Z)
EditID: Training-Free Editable ID Customization for Text-to-Image Generation [12.168520751389622]
テキストから画像生成まで高度に編集可能なカスタマイズIDを実現するための,DiTアーキテクチャに基づくトレーニング不要のアプローチであるEditIDを提案する。プロンプトを通じて顔の向き、文字属性、その他の特徴を変更することは困難である。 EditIDは、DiTアーキテクチャ上でカスタマイズ可能なID編集性を提案する最初のテキスト・ツー・イメージソリューションである。
論文参考訳（メタデータ） (2025-03-16T14:41:30Z)
Omni-ID: Holistic Identity Representation Designed for Generative Tasks [75.29174595706533]
Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。様々な数の非構造化入力画像から情報を構造化表現に集約する。様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
論文参考訳（メタデータ） (2024-12-12T19:21:20Z)
ID-Patch: Robust ID Association for Group Photo Personalization [29.38844265790726]
ID-Patchは、アイデンティティと2D位置の堅牢な関連を提供する新しい方法である。アプローチでは,同じ顔の特徴からIDパッチとID埋め込みを生成する。
論文参考訳（メタデータ） (2024-11-20T18:55:28Z)
Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文参考訳（メタデータ） (2024-06-10T06:26:03Z)
Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter [23.690420512911146]
Inv-Adapter は,DDIM 画像の逆変換により事前学習したテキスト・ツー・イメージモデルを用いて,ID 画像の拡散領域表現を抽出する。抽出したIDの高アライメントとテキスト・ツー・イメージ・モデルの中間的特徴から、それらをベース・テキスト・ツー・イメージ・モデルに効率的に組み込む。提案したInv-Adapterは,IDのカスタマイズ生成とモデルスケールにおいて高い競争力を持つことを示す。
論文参考訳（メタデータ） (2024-06-05T02:59:08Z)
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文参考訳（メタデータ） (2024-04-30T10:16:21Z)
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文参考訳（メタデータ） (2024-04-23T18:41:56Z)
StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文参考訳（メタデータ） (2024-01-29T09:06:15Z)
InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文参考訳（メタデータ） (2024-01-15T07:50:18Z)
Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-04-14T23:32:24Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。