Fugu-MT 論文翻訳(概要): InstantID: Zero-shot Identity-Preserving Generation in Seconds

論文の概要: InstantID: Zero-shot Identity-Preserving Generation in Seconds

arxiv url: http://arxiv.org/abs/2401.07519v2
Date: Fri, 2 Feb 2024 16:15:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 18:54:05.084828
Title: InstantID: Zero-shot Identity-Preserving Generation in Seconds
Title（参考訳）: instantid:ゼロショットid保存生成を数秒で実現する
Authors: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen, Huaxia Li, Xu Tang, and Yao Hu
Abstract要約: 我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
参考スコア（独自算出の注目度）: 21.04236321562671
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There has been significant progress in personalized image synthesis with methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world applicability is hindered by high storage demands, lengthy fine-tuning processes, and the need for multiple reference images. Conversely, existing ID embedding-based methods, while requiring only a single forward inference, face challenges: they either necessitate extensive fine-tuning across numerous model parameters, lack compatibility with community pre-trained models, or fail to maintain high face fidelity. Addressing these limitations, we introduce InstantID, a powerful diffusion model-based solution. Our plug-and-play module adeptly handles image personalization in various styles using just a single facial image, while ensuring high fidelity. To achieve this, we design a novel IdentityNet by imposing strong semantic and weak spatial conditions, integrating facial and landmark images with textual prompts to steer the image generation. InstantID demonstrates exceptional performance and efficiency, proving highly beneficial in real-world applications where identity preservation is paramount. Moreover, our work seamlessly integrates with popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving as an adaptable plugin. Our codes and pre-trained checkpoints will be available at https://github.com/InstantID/InstantID.
Abstract（参考訳）: Textual Inversion、DreamBooth、LoRAといった手法でパーソナライズされた画像合成が大幅に進歩した。しかし、実際の適用性は、高いストレージ要求、長い微調整プロセス、複数の参照画像の必要性によって妨げられている。逆に、既存のID埋め込みベースのメソッドは、1つのフォワード推論しか必要とせず、多くのモデルパラメータにわたる広範囲な微調整を必要とするか、コミュニティで事前訓練されたモデルとの互換性の欠如、あるいは高い顔の忠実さの維持に失敗する、といった問題に直面している。これらの制限に対処するため、我々は強力な拡散モデルに基づくソリューションであるInstantIDを導入する。我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。そこで本稿では,表情とランドマークの画像をテクストプロンプトと統合して画像生成を制御し,強い意味と弱い空間条件を付与し,新たなアイデンティティネットをデザインする。 InstantIDは優れた性能と効率を示し、アイデンティティ保護が最重要となる現実世界のアプリケーションで非常に有益である。さらに,本研究は,sd1.5やsdxlなどのテキストから画像への拡散モデルとシームレスに統合し,適応可能なプラグインとして機能する。私たちのコードと事前訓練されたチェックポイントはhttps://github.com/InstantID/InstantIDで利用可能です。

関連論文リスト

ID-Booth: Identity-consistent Face Generation with Diffusion Models [10.042492056152232]
我々はID-Boothと呼ばれる新しい生成拡散に基づくフレームワークを提案する。このフレームワークは、事前訓練された拡散モデルの合成能力を保ちながら、アイデンティティ一貫性のある画像生成を可能にする。本手法は、画像の多様性を向上しつつ、競合する手法よりもアイデンティティ間の一貫性とアイデンティティ間の分離性を向上する。
論文参考訳（メタデータ） (2025-04-10T02:20:18Z)
DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability [12.692129257068085]
シングルIDとマルチIDパーソナライズされた生成を本質的に促進する,チューニング不要なフレームワークであるDynamicIDを提案する。主なイノベーションは,(1)ID特徴注入時のベースモデルの破壊を最小限に抑えるためのクエリレベルのアクティベーションゲーティング(SAA)と,トレーニング中に複数IDサンプルを必要とせずにマルチIDパーソナライゼーションを実現するためのクエリレベルのアクティベートゲーティングゲーティング(SAA),2)顔の動作とアイデンティティ機能を効果的にアンタングルするために特徴空間操作を適用したID-Motion Reconfigurator(IMR),3)データ依存を減らすタスク分離トレーニングパラダイムであるVariFace-10k(VariFace-10k)である。
論文参考訳（メタデータ） (2025-03-09T08:16:19Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文参考訳（メタデータ） (2024-06-10T06:26:03Z)
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文参考訳（メタデータ） (2024-04-30T10:16:21Z)
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文参考訳（メタデータ） (2024-04-23T18:41:56Z)
Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文参考訳（メタデータ） (2024-03-18T13:39:53Z)
Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文参考訳（メタデータ） (2024-01-31T11:52:33Z)
PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。 PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文参考訳（メタデータ） (2023-12-11T13:03:29Z)
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文参考訳（メタデータ） (2023-12-07T17:32:29Z)
Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-04-14T23:32:24Z)
MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation [57.060828009199646]
本稿では,ID保存型音声ヘッド生成フレームワークを提案する。密集したランドマークは、正確な幾何認識フローフィールドを達成するために不可欠であると主張する。我々は、合成中にソースアイデンティティを適応的に融合させ、画像ポートレートのキー特性をよりよく保存する。
論文参考訳（メタデータ） (2022-12-15T18:59:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。