論文の概要: InstantID: Zero-shot Identity-Preserving Generation in Seconds
- arxiv url: http://arxiv.org/abs/2401.07519v2
- Date: Fri, 2 Feb 2024 16:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:54:05.084828
- Title: InstantID: Zero-shot Identity-Preserving Generation in Seconds
- Title(参考訳): instantid:ゼロショットid保存生成を数秒で実現する
- Authors: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen, Huaxia Li,
Xu Tang, and Yao Hu
- Abstract要約: 我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
- 参考スコア(独自算出の注目度): 21.04236321562671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been significant progress in personalized image synthesis with
methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world
applicability is hindered by high storage demands, lengthy fine-tuning
processes, and the need for multiple reference images. Conversely, existing ID
embedding-based methods, while requiring only a single forward inference, face
challenges: they either necessitate extensive fine-tuning across numerous model
parameters, lack compatibility with community pre-trained models, or fail to
maintain high face fidelity. Addressing these limitations, we introduce
InstantID, a powerful diffusion model-based solution. Our plug-and-play module
adeptly handles image personalization in various styles using just a single
facial image, while ensuring high fidelity. To achieve this, we design a novel
IdentityNet by imposing strong semantic and weak spatial conditions,
integrating facial and landmark images with textual prompts to steer the image
generation. InstantID demonstrates exceptional performance and efficiency,
proving highly beneficial in real-world applications where identity
preservation is paramount. Moreover, our work seamlessly integrates with
popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving
as an adaptable plugin. Our codes and pre-trained checkpoints will be available
at https://github.com/InstantID/InstantID.
- Abstract(参考訳): Textual Inversion、DreamBooth、LoRAといった手法でパーソナライズされた画像合成が大幅に進歩した。
しかし、実際の適用性は、高いストレージ要求、長い微調整プロセス、複数の参照画像の必要性によって妨げられている。
逆に、既存のID埋め込みベースのメソッドは、1つのフォワード推論しか必要とせず、多くのモデルパラメータにわたる広範囲な微調整を必要とするか、コミュニティで事前訓練されたモデルとの互換性の欠如、あるいは高い顔の忠実さの維持に失敗する、といった問題に直面している。
これらの制限に対処するため、我々は強力な拡散モデルに基づくソリューションであるInstantIDを導入する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
そこで本稿では,表情とランドマークの画像をテクストプロンプトと統合して画像生成を制御し,強い意味と弱い空間条件を付与し,新たなアイデンティティネットをデザインする。
InstantIDは優れた性能と効率を示し、アイデンティティ保護が最重要となる現実世界のアプリケーションで非常に有益である。
さらに,本研究は,sd1.5やsdxlなどのテキストから画像への拡散モデルとシームレスに統合し,適応可能なプラグインとして機能する。
私たちのコードと事前訓練されたチェックポイントはhttps://github.com/InstantID/InstantIDで利用可能です。
関連論文リスト
- SeFi-IDE: Semantic-Fidelity Identity Embedding for Personalized
Diffusion-Based Generation [23.748654463945567]
我々は、パーソナライズされた生成のための安定拡散モデルに埋め込まれた正確でセマンティックなIDに焦点を当てる。
具体的には、対象画像全体ではなく、顔領域に適合する顔の注意損失を提案する。
このトリックは、他の既存の概念とIDの精度と対話的な生成能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion
Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。
1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-11T19:59:43Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion
with C-LoRA [73.25715057309768]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z) - MetaPortrait: Identity-Preserving Talking Head Generation with Fast
Personalized Adaptation [57.060828009199646]
本稿では,ID保存型音声ヘッド生成フレームワークを提案する。
密集したランドマークは、正確な幾何認識フローフィールドを達成するために不可欠であると主張する。
我々は、合成中にソースアイデンティティを適応的に融合させ、画像ポートレートのキー特性をよりよく保存する。
論文 参考訳(メタデータ) (2022-12-15T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。