論文の概要: HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping
- arxiv url: http://arxiv.org/abs/2212.06458v3
- Date: Thu, 3 Aug 2023 07:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 17:26:31.431143
- Title: HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping
- Title(参考訳): HS拡散:ヘッドスワップ用セマンティックミキシング拡散
- Authors: Qinghe Wang, Lijie Liu, Miao Hua, Pengfei Zhu, Wangmeng Zuo, Qinghua
Hu, Huchuan Lu, Bing Cao
- Abstract要約: ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
- 参考スコア(独自算出の注目度): 150.06405071177048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based head swapping task aims to stitch a source head to another source
body flawlessly. This seldom-studied task faces two major challenges: 1)
Preserving the head and body from various sources while generating a seamless
transition region. 2) No paired head swapping dataset and benchmark so far. In
this paper, we propose a semantic-mixing diffusion model for head swapping
(HS-Diffusion) which consists of a latent diffusion model (LDM) and a semantic
layout generator. We blend the semantic layouts of source head and source body,
and then inpaint the transition region by the semantic layout generator,
achieving a coarse-grained head swapping. Semantic-mixing LDM can further
implement a fine-grained head swapping with the inpainted layout as condition
by a progressive fusion process, while preserving head and body with
high-quality reconstruction. To this end, we propose a semantic calibration
strategy for natural inpainting and a neck alignment for geometric realism.
Importantly, we construct a new image-based head swapping benchmark and design
two tailor-designed metrics (Mask-FID and Focal-FID). Extensive experiments
demonstrate the superiority of our framework. The code will be available:
https://github.com/qinghew/HS-Diffusion.
- Abstract(参考訳): 画像ベースのヘッドスワップタスクは、ソースヘッドを他のソースボディに完璧に縫い合わせることを目的としている。
この研究課題は2つの大きな課題に直面します。
1)シームレスな遷移領域を生成しつつ、様々なソースから頭と体を保存する。
2) ヘッドスワップデータセットとベンチマークのペアは今のところない。
本稿では,遅延拡散モデル (LDM) と意味的レイアウト生成器からなるヘッドスワップ (HS-Diffusion) のための意味混合拡散モデルを提案する。
ソースヘッドとソースボディのセマンティクスレイアウトをブレンドし、セマンティクスレイアウト生成器によって遷移領域を塗り込み、粒度の粗いヘッドスワップを実現する。
セマンティクスミックスldmは、高品質な再構築で頭と体を保ちつつ、プログレッシブ融合プロセスにより、インペインテッドレイアウトと交換した細粒度のヘッドを条件としてさらに実装することができる。
そこで本研究では,自然塗布のセマンティックキャリブレーション戦略と幾何学的リアリズムのネックアライメントを提案する。
重要な点として、画像ベースの新しいヘッドスワップベンチマークを構築し、Mask-FIDとFocal-FIDの2つを設計する。
広範な実験が我々の枠組みの優越性を示している。
コードはhttps://github.com/qinghew/hs-diffusion。
関連論文リスト
- Towards High-fidelity Head Blending with Chroma Keying for Industrial Applications [7.479901577089033]
本稿では,デジタルコンテンツ作成において,アクターの頭部をターゲット本体にシームレスに統合するための産業用ヘッドブレンディングパイプラインを提案する。
鍵となる課題は、頭部の形状と毛髪の構造の相違に起因し、不自然な境界と人工物が混ざり合うことにつながる。
前景ブレンディングからバックグラウンド統合を分離する新しいパイプラインであるCHANGERを提案する。
論文 参考訳(メタデータ) (2024-11-01T15:14:59Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [60.08319512840091]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は,野生頭部のアスペクト比不変収穫が,それまでのランドマークベースのアフィンアライメントよりも優れているという観測に基づいている。
実験とアブレーション研究は、SemiUHPEが既存の手法を公開ベンチマークで大きく上回っていることを示している。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z) - Face Swap via Diffusion Model [4.026688121914668]
本稿では2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。
基本フレームワークは、顔の特徴符号化、多条件生成、顔の塗装の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-03-02T07:02:17Z) - HeadArtist: Text-conditioned 3D Head Generation with Self Score Distillation [95.58892028614444]
本研究は,テキスト記述から3次元ヘッド生成のためのHeadArtistを提案する。
従来の蒸留の監督の下でパラメータ化された3次元ヘッドモデルを最適化する効率的なパイプラインを考案した。
実験結果から,本手法は適切な形状とフォトリアリスティックな外観を持つ高品質な3次元頭部彫刻を実現することが示唆された。
論文 参考訳(メタデータ) (2023-12-12T18:59:25Z) - DPHMs: Diffusion Parametric Head Models for Depth-based Tracking [42.016598097736626]
拡散パラメトリックヘッドモデル(DPHM)を紹介する。
DPHMは、単分子深度配列からの堅牢な頭部再構成と追跡を可能にする生成モデルである。
本稿では,ボリュームヘッドの再構築と追跡を正規化するために,遅延拡散に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-12-02T08:34:22Z) - DisCoHead: Audio-and-Video-Driven Talking Head Generation by
Disentangled Control of Head Pose and Facial Expressions [21.064765388027727]
DisCoHeadは、ヘッドポーズと顔の表情を監督なしで切り離し、制御する新しい方法である。
DisCoHeadは、リアルな音声およびビデオ駆動音声ヘッドを生成し、最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-03-14T08:22:18Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Few-Shot Head Swapping in the Wild [79.78228139171574]
ヘッドスワップタスクは、様々なエンターテイメントシナリオにおいて非常に重要なターゲット本体にソースヘッドを完璧に配置することを目的としている。
ヘッドモデリングとバックグラウンドブレンディングに特有のニーズがあるため、本質的には困難である。
我々は2つの繊細なデザインのモジュールを通して、数発のヘッドスワッピングを実現するヘッドスワッパー(HeSer)を提示する。
論文 参考訳(メタデータ) (2022-04-27T17:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。