論文の概要: RealisID: Scale-Robust and Fine-Controllable Identity Customization via Local and Global Complementation
- arxiv url: http://arxiv.org/abs/2412.16832v1
- Date: Sun, 22 Dec 2024 02:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:29.922280
- Title: RealisID: Scale-Robust and Fine-Controllable Identity Customization via Local and Global Complementation
- Title(参考訳): RealisID: 局所的およびグローバル的補完によるスケールロバストかつ微調整可能なアイデンティティカスタマイズ
- Authors: Zhaoyang Sun, Fei Du, Weihua Chen, Fan Wang, Yaxiong Chen, Yi Rong, Shengwu Xiong,
- Abstract要約: RealisIDは、ローカルブランチとグローバルブランチの連携を通じて、異なるコントロール機能を学ぶ。
本手法は,個別のデータセットでのみ訓練された場合でも,マルチパーソンのカスタマイズに容易に対応できる。
- 参考スコア(独自算出の注目度): 29.430749386234414
- License:
- Abstract: Recently, the success of text-to-image synthesis has greatly advanced the development of identity customization techniques, whose main goal is to produce realistic identity-specific photographs based on text prompts and reference face images. However, it is difficult for existing identity customization methods to simultaneously meet the various requirements of different real-world applications, including the identity fidelity of small face, the control of face location, pose and expression, as well as the customization of multiple persons. To this end, we propose a scale-robust and fine-controllable method, namely RealisID, which learns different control capabilities through the cooperation between a pair of local and global branches. Specifically, by using cropping and up-sampling operations to filter out face-irrelevant information, the local branch concentrates the fine control of facial details and the scale-robust identity fidelity within the face region. Meanwhile, the global branch manages the overall harmony of the entire image. It also controls the face location by taking the location guidance as input. As a result, RealisID can benefit from the complementarity of these two branches. Finally, by implementing our branches with two different variants of ControlNet, our method can be easily extended to handle multi-person customization, even only trained on single-person datasets. Extensive experiments and ablation studies indicate the effectiveness of RealisID and verify its ability in fulfilling all the requirements mentioned above.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ・シンセサイザーの成功により,テキスト・プロンプトと参照顔画像に基づく現実的なアイデンティティ固有の写真を作成することを目的として,アイデンティティ・カスタマイズ技術の開発が大幅に進展している。
しかし, 顔の同一性, 顔の位置, ポーズ, 表情の制御, 複数人のカスタマイズなど, さまざまな実世界の応用要件を同時に満たすことは困難である。
そこで本研究では,ローカルブランチとグローバルブランチの連携によって,異なる制御能力を学習する,スケールロバストで制御可能なRealisIDを提案する。
具体的には、トリミングおよびアップサンプリング操作を用いて顔非関連情報をフィルタリングすることにより、局所枝は顔領域内の顔の詳細のきめ細かい制御とスケール・ロバストな同一性に集中する。
一方、グローバルブランチは、全体像の全体的な調和を管理する。
また、位置案内を入力として、顔の位置を制御する。
その結果、RealisIDはこれらの2つのブランチの相補性の恩恵を受けることができる。
最後に、2つの異なるバージョンのControlNetでブランチを実装することで、単一の個人データセットでのみトレーニングされた場合であっても、メソッドを簡単に拡張してマルチパーソンのカスタマイズを処理できます。
大規模な実験とアブレーション研究は、RealisIDの有効性を示し、上記の全ての要件を満たす能力を検証する。
関連論文リスト
- ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - Towards Global Localization using Multi-Modal Object-Instance Re-Identification [23.764646800085977]
マルチモーダルRGBと深度情報を統合した新しい再同定トランスフォーマアーキテクチャを提案する。
照明条件が異なったり散らかったりしたシーンにおけるReIDの改善を実演する。
また、正確なカメラのローカライゼーションを可能にするReIDベースのローカライゼーションフレームワークを開発し、異なる視点で識別を行う。
論文 参考訳(メタデータ) (2024-09-18T14:15:10Z) - ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving [66.09976326184066]
ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。
我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
論文 参考訳(メタデータ) (2024-04-25T17:23:43Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - An Open-World, Diverse, Cross-Spatial-Temporal Benchmark for Dynamic Wild Person Re-Identification [58.5877965612088]
人物再識別(ReID)は、データ駆動のディープラーニング技術のおかげで大きな進歩を遂げました。
既存のベンチマークデータセットには多様性がなく、これらのデータに基づいてトレーニングされたモデルは、動的なワイルドシナリオに対してうまく一般化できない。
OWDと呼ばれる新しいOpen-World, Diverse, Cross-Spatial-Temporalデータセットを開発した。
論文 参考訳(メタデータ) (2024-03-22T11:21:51Z) - Identity-preserving Editing of Multiple Facial Attributes by Learning
Global Edit Directions and Local Adjustments [4.082799056366928]
ID-Styleは属性操作時のID損失に対処できる新しいアーキテクチャである。
本稿では、IAIPとともに入力インスタンスの同一性を保持する半スパースな意味方向を見つけるために、LGDを強制する訓練中に2つの損失を導入する。
論文 参考訳(メタデータ) (2023-09-25T16:28:39Z) - Facial Action Units Detection Aided by Global-Local Expression Embedding [36.78982474775454]
我々はGlobal-Local Face Expressions Embedding(GLEE-Net)による新しいAU検出フレームワークを開発した。
我々のGLEE-Netは、AU検出のためのアイデンティティ非依存の表現特徴を抽出する3つのブランチから構成されている。
提案手法は, 広く使用されているdisFA, BP4D, BP4D+データセットの最先端性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-10-25T02:35:32Z) - Semantic Consistency and Identity Mapping Multi-Component Generative
Adversarial Network for Person Re-Identification [39.605062525247135]
本稿では,1つのドメインから複数のドメインへのスタイル適応を提供する,意味一貫性とアイデンティティマッピングの多成分生成対向ネットワーク(SC-IMGAN)を提案する。
提案手法は,6つの挑戦的人物リidデータセットにおける最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-28T14:12:29Z) - FaceController: Controllable Attribute Editing for Face in the Wild [74.56117807309576]
単純なフィードフォワードネットワークを提案し、高忠実度な顔を生成する。
本手法では,既存かつ容易に把握可能な事前情報を利用することで,野生の多様な顔属性の制御,転送,編集を行うことができる。
本手法では,3Dプリミティブを用いてアイデンティティ,表現,ポーズ,イルミネーションを分離し,地域別スタイルコードを用いてテクスチャとカラーを分離する。
論文 参考訳(メタデータ) (2021-02-23T02:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。