論文の概要: HiFi-Portrait: Zero-shot Identity-preserved Portrait Generation with High-fidelity Multi-face Fusion
- arxiv url: http://arxiv.org/abs/2512.14542v1
- Date: Tue, 16 Dec 2025 16:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.782117
- Title: HiFi-Portrait: Zero-shot Identity-preserved Portrait Generation with High-fidelity Multi-face Fusion
- Title(参考訳): HiFi-Portrait:高忠実多面融合によるゼロショットアイデンティティ保存ポートレート生成
- Authors: Yifang Xu, Benxiang Zhai, Yunzhuo Sun, Ming Li, Yang Li, Sidan Du,
- Abstract要約: HiFi-Portraitはゼロショットポートレート生成のための高忠実度手法である。
我々の手法は相似性と制御性においてSOTAアプローチを超越している。
- 参考スコア(独自算出の注目度): 12.382436378979564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in diffusion-based technologies have made significant strides, particularly in identity-preserved portrait generation (IPG). However, when using multiple reference images from the same ID, existing methods typically produce lower-fidelity portraits and struggle to customize face attributes precisely. To address these issues, this paper presents HiFi-Portrait, a high-fidelity method for zero-shot portrait generation. Specifically, we first introduce the face refiner and landmark generator to obtain fine-grained multi-face features and 3D-aware face landmarks. The landmarks include the reference ID and the target attributes. Then, we design HiFi-Net to fuse multi-face features and align them with landmarks, which improves ID fidelity and face control. In addition, we devise an automated pipeline to construct an ID-based dataset for training HiFi-Portrait. Extensive experimental results demonstrate that our method surpasses the SOTA approaches in face similarity and controllability. Furthermore, our method is also compatible with previous SDXL-based works.
- Abstract(参考訳): 近年の拡散技術の発展は、特にアイデンティティ保存ポートレート生成(IPG)において顕著な進歩を遂げている。
しかし、同一のIDから複数の参照画像を使用する場合、既存の方法は一般的に低忠実度なポートレートを生成し、顔属性を正確にカスタマイズするのに苦労する。
これらの問題に対処するために,ゼロショットポートレート生成のための高忠実度手法であるHiFi-Portraitを提案する。
具体的には、まず顔の精細化とランドマーク生成を導入し、きめ細かな多面特徴と3D認識顔のランドマークを得る。
ランドマークには、参照IDとターゲット属性が含まれている。
そして、HiFi-Netを設計し、マルチフェイス機能を融合し、ランドマークと整列させ、IDの忠実度と顔制御を改善する。
また、HiFi-PortraitをトレーニングするためのIDベースのデータセットを構築するための自動パイプラインを考案した。
実験結果から,SOTA法は相似性と制御性に優れることがわかった。
さらに,本手法は従来のSDXL法と互換性がある。
関連論文リスト
- From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z) - Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。
既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。
本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:33:11Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors [71.69161292330504]
可逆顔匿名化(Reversible face anonymization)は、顔画像の繊細なアイデンティティ情報を、合成された代替品に置き換えようとしている。
本稿では,Gtextsuperscript2Faceを提案する。
提案手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-08-18T12:36:47Z) - ID-Sculpt: ID-aware 3D Head Generation from Single In-the-wild Portrait Image [57.46195661521239]
従来の3Dヘッド生成法はテキスト記述によって制限されており、画像ベースの手法は高品質なヘッドジオメトリを作成するのに苦労していた。
高品質な3Dヘッドを生成できる新しいフレームワークID-Sculptを提案する。
広汎な実験により、1枚の画像から正確な形状とテクスチャで高品質な3Dヘッドを生成できることが実証された。
論文 参考訳(メタデータ) (2024-06-24T15:11:35Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Face Swap via Diffusion Model [4.026688121914668]
本稿では2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。
基本フレームワークは、顔の特徴符号化、多条件生成、顔の塗装の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-03-02T07:02:17Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。