論文の概要: Stable-Hair v2: Real-World Hair Transfer via Multiple-View Diffusion Model
- arxiv url: http://arxiv.org/abs/2507.07591v1
- Date: Thu, 10 Jul 2025 09:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.346884
- Title: Stable-Hair v2: Real-World Hair Transfer via Multiple-View Diffusion Model
- Title(参考訳): 安定ヘアv2:多視点拡散モデルによる実世界ヘアトランスファー
- Authors: Kuiyuan Sun, Yuxuan Zhang, Jichao Zhang, Jiaming Liu, Wei Wang, Niculae Sebe, Yao Zhao,
- Abstract要約: 本稿では,新しい拡散型多視点ヘアトランスファーフレームワークであるStable-Hair v2を提案する。
これは、マルチビュー拡散モデルを利用して、堅牢で高忠実で、かつビュー一貫性のあるヘアトランスファーに活用する最初の試みである。
提案手法は,美容的かつリアルな髪型を被験者に正確に伝達し,シームレスで一貫した結果が得られる。
- 参考スコア(独自算出の注目度): 39.67656120207996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion-based methods have shown impressive capabilities in capturing diverse and complex hairstyles, their ability to generate consistent and high-quality multi-view outputs -- crucial for real-world applications such as digital humans and virtual avatars -- remains underexplored. In this paper, we propose Stable-Hair v2, a novel diffusion-based multi-view hair transfer framework. To the best of our knowledge, this is the first work to leverage multi-view diffusion models for robust, high-fidelity, and view-consistent hair transfer across multiple perspectives. We introduce a comprehensive multi-view training data generation pipeline comprising a diffusion-based Bald Converter, a data-augment inpainting model, and a face-finetuned multi-view diffusion model to generate high-quality triplet data, including bald images, reference hairstyles, and view-aligned source-bald pairs. Our multi-view hair transfer model integrates polar-azimuth embeddings for pose conditioning and temporal attention layers to ensure smooth transitions between views. To optimize this model, we design a novel multi-stage training strategy consisting of pose-controllable latent IdentityNet training, hair extractor training, and temporal attention training. Extensive experiments demonstrate that our method accurately transfers detailed and realistic hairstyles to source subjects while achieving seamless and consistent results across views, significantly outperforming existing methods and establishing a new benchmark in multi-view hair transfer. Code is publicly available at https://github.com/sunkymepro/StableHairV2.
- Abstract(参考訳): 拡散ベースの手法は多彩で複雑なヘアスタイルをキャプチャする素晴らしい能力を示しているが、デジタル人間や仮想アバターのような現実世界のアプリケーションにとって欠かせない、一貫性のある高品質なマルチビュー出力を生成する能力はいまだ研究されていない。
本稿では,新しい拡散型多視点ヘアトランスファーフレームワークであるStable-Hair v2を提案する。
我々の知る限りでは、多視点拡散モデルを利用して、複数の視点をまたいだ堅牢で高忠実で、かつ視野に一貫性のあるヘアトランスファーを行う最初の試みである。
本研究では,拡散に基づくBald Converter,データ拡張塗装モデル,顔ファインニングによる多視点拡散モデルからなる総合的な多視点学習データ生成パイプラインを導入し,ハゲ画像,参照ヘアスタイル,ビュー整列ソースバルドペアなどの高品質な3重項データを生成する。
マルチビューヘアトランスファーモデルでは、ポーズ条件付けのための極方位埋め込みと時間的注意層を統合し、ビュー間のスムーズな遷移を保証する。
このモデルを最適化するために、ポーズ制御可能な潜在アイデンティティネットトレーニング、ヘアトラクタトレーニング、時間的注意トレーニングからなる新しい多段階トレーニング戦略を設計する。
広範にわたる実験により,本手法は多面的ヘアスタイルを精度良く表現し,シームレスかつ一貫した結果が得られるとともに,既存手法よりも優れ,多面的ヘアスタイルの新たなベンチマークが確立された。
コードはhttps://github.com/sunkymepro/StableHairV2.comで公開されている。
関連論文リスト
- SpinMeRound: Consistent Multi-View Identity Generation Using Diffusion Models [80.33151028528563]
SpinMeRoundは、新しい視点から一貫性のある正確なヘッドポートレートを生成するために設計された拡散ベースのアプローチである。
本手法は,複数の入力ビューをアイデンティティ埋め込みとともに活用することにより,対象の多様な視点を効果的に合成する。
論文 参考訳(メタデータ) (2025-04-14T21:16:20Z) - Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。
我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。
我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文 参考訳(メタデータ) (2024-12-31T05:49:00Z) - DiffusionTrend: A Minimalist Approach to Virtual Fashion Try-On [103.89972383310715]
DiffusionTrendは、事前情報に富んだ潜伏情報を利用して、衣服の詳細のニュアンスをキャプチャする。
視覚的に魅力的な試行体験を提供し、トレーニング不要の拡散モデルの可能性を強調します。
論文 参考訳(メタデータ) (2024-12-19T02:24:35Z) - Stable-Hair: Real-World Hair Transfer via Diffusion Model [26.880396643803998]
現在のヘアトランスファー手法は、多様で複雑なヘアスタイルを扱うのに苦労し、現実のシナリオにおける適用性を制限している。
そこで本研究では,現実世界のヘアスタイルを仮想ヘアトライオンのためにユーザが提供する顔に堅牢に転送する,新しい拡散型ヘアトランスファーフレームワークであるtextitStable-Hairを提案する。
論文 参考訳(メタデータ) (2024-07-19T07:14:23Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - MUST-GAN: Multi-level Statistics Transfer for Self-driven Person Image
Generation [13.06676286691587]
姿勢誘導型人物画像生成は通常、トレーニングを監督するためにペアのソースターゲット画像を使用する。
本稿では,人物画像から多段階の外観特徴を分離・伝達する,新しい多段階統計伝達モデルを提案する。
提案手法は,人物の外観を柔軟に操作し,ポーズ・トランスファーや衣服スタイル・トランスファー・タスクを行う。
論文 参考訳(メタデータ) (2020-11-18T04:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。