論文の概要: StableIdentity: Inserting Anybody into Anywhere at First Sight
- arxiv url: http://arxiv.org/abs/2401.15975v1
- Date: Mon, 29 Jan 2024 09:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 15:27:41.583135
- Title: StableIdentity: Inserting Anybody into Anywhere at First Sight
- Title(参考訳): StableIdentity: 誰でもどこにでも入れられる
- Authors: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge,
Huchuan Lu
- Abstract要約: 一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
- 参考スコア(独自算出の注目度): 57.99693188913382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large pretrained text-to-image models have shown
unprecedented capabilities for high-quality human-centric generation, however,
customizing face identity is still an intractable problem. Existing methods
cannot ensure stable identity preservation and flexible editability, even with
several images for each subject during training. In this work, we propose
StableIdentity, which allows identity-consistent recontextualization with just
one face image. More specifically, we employ a face encoder with an identity
prior to encode the input face, and then land the face representation into a
space with an editable prior, which is constructed from celeb names. By
incorporating identity prior and editability prior, the learned identity can be
injected anywhere with various contexts. In addition, we design a masked
two-phase diffusion loss to boost the pixel-level perception of the input face
and maintain the diversity of generation. Extensive experiments demonstrate our
method outperforms previous customization methods. In addition, the learned
identity can be flexibly combined with the off-the-shelf modules such as
ControlNet. Notably, to the best knowledge, we are the first to directly inject
the identity learned from a single image into video/3D generation without
finetuning. We believe that the proposed StableIdentity is an important step to
unify image, video, and 3D customized generation models.
- Abstract(参考訳): 最近の大規模事前学習されたテキストから画像へのモデルの進歩は、高品質な人間中心世代に前例のない能力を示しているが、顔認証のカスタマイズは依然として難解な問題である。
既存の手法では、訓練中に各被験者の複数の画像であっても、安定したアイデンティティ保存とフレキシブルな編集性を確保することはできない。
本研究では,1つの顔画像で識別一貫性のある再文化を可能にするStableIdentityを提案する。
より具体的には、入力顔のエンコードに先立ってアイデンティティを持つフェイスエンコーダを使用し、セレブ名から構築した編集可能な事前の空間に顔表現を配置する。
事前のアイデンティティと編集性を導入することで、学習されたアイデンティティはさまざまなコンテキストでどこでも注入できる。
さらに,入力面の画素レベル知覚を向上させ,生成の多様性を維持するため,マスク付き二相拡散損失を設計した。
大規模な実験により,提案手法は従来のカスタマイズ方法よりも優れていた。
さらに、学習したアイデンティティは、ControlNetのような既製のモジュールと柔軟に結合することができる。
特に,1つの画像から学んだアイデンティティを直接ビデオ/3D生成に微調整せずに直接注入するのは,最もよい知識である。
提案されたStableIdentityは、画像、ビデオ、および3Dカスタマイズされた生成モデルを統一するための重要なステップであると考えています。
関連論文リスト
- G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors [71.69161292330504]
可逆顔匿名化(Reversible face anonymization)は、顔画像の繊細なアイデンティティ情報を、合成された代替品に置き換えようとしている。
本稿では,Gtextsuperscript2Faceを提案する。
提案手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-08-18T12:36:47Z) - MasterWeaver: Taming Editability and Face Identity for Personalized Text-to-Image Generation [59.13765130528232]
MasterWeaverは、忠実なアイデンティティとフレキシブルな編集性の両方でパーソナライズされた画像を生成するために設計された、テスト時のチューニング不要な手法である。
具体的には、MasterWeaverはエンコーダを採用して、アイデンティティ機能を抽出し、追加のクロスアテンションを通じて画像生成をステアリングする。
同一性を維持しながら編集性を向上させるため,MasterWeaverの編集方向をオリジナルのT2Iモデルと整合させる訓練用編集方向損失を提案する。
論文 参考訳(メタデータ) (2024-05-09T14:42:16Z) - FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - Face2Diffusion for Fast and Editable Face Personalization [33.65484538815936]
顔のパーソナライズのためのFace2Diffusion(F2D)を提案する。
F2Dの背後にある中核的な考え方は、トレーニングパイプラインからアイデンティティ非関連情報を削除することで、オーバーフィッティングの問題を防ぐことである。
F2Dは以下の3つの新しい構成要素から構成される。
論文 参考訳(メタデータ) (2024-03-08T06:46:01Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - A Systematical Solution for Face De-identification [6.244117712209321]
異なるタスクにおいて、人々は顔の特定(De-ID)に様々な要件を持つ
本稿では,これらのDe-ID操作に適合する系統的解を提案する。
本手法は,様々な方法で顔データを柔軟に識別し,画像の画質が向上する。
論文 参考訳(メタデータ) (2021-07-19T02:02:51Z) - IdentityDP: Differential Private Identification Protection for Face
Images [17.33916392050051]
顔の非識別、別名顔の匿名化は、実際のアイデンティティが隠されている間、同様の外観と同じ背景を持つ別の画像を生成することを指します。
我々は,データ駆動型ディープニューラルネットワークと差分プライバシー機構を組み合わせた顔匿名化フレームワークであるIdentityDPを提案する。
我々のモデルは、顔の識別関連情報を効果的に難読化し、視覚的類似性を保ち、高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2021-03-02T14:26:00Z) - VAE/WGAN-Based Image Representation Learning For Pose-Preserving
Seamless Identity Replacement In Facial Images [15.855376604558977]
We present a novel variational generative adversarial network (VGAN) based on Wasserstein loss。
我々のネットワークは、ポーズ保存されたアイデンティティ・モーフィングとアイデンティティ保存されたポーズ・モーフィングの実行に利用できることを示す。
論文 参考訳(メタデータ) (2020-03-02T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。