論文の概要: SpinMeRound: Consistent Multi-View Identity Generation Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.10716v1
- Date: Mon, 14 Apr 2025 21:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:09.639284
- Title: SpinMeRound: Consistent Multi-View Identity Generation Using Diffusion Models
- Title(参考訳): SpinMeRound:拡散モデルを用いた一貫性のあるマルチビューアイデンティティ生成
- Authors: Stathis Galanakis, Alexandros Lattas, Stylianos Moschoglou, Bernhard Kainz, Stefanos Zafeiriou,
- Abstract要約: SpinMeRoundは、新しい視点から一貫性のある正確なヘッドポートレートを生成するために設計された拡散ベースのアプローチである。
本手法は,複数の入力ビューをアイデンティティ埋め込みとともに活用することにより,対象の多様な視点を効果的に合成する。
- 参考スコア(独自算出の注目度): 80.33151028528563
- License:
- Abstract: Despite recent progress in diffusion models, generating realistic head portraits from novel viewpoints remains a significant challenge. Most current approaches are constrained to limited angular ranges, predominantly focusing on frontal or near-frontal views. Moreover, although the recent emerging large-scale diffusion models have been proven robust in handling 3D scenes, they underperform on facial data, given their complex structure and the uncanny valley pitfalls. In this paper, we propose SpinMeRound, a diffusion-based approach designed to generate consistent and accurate head portraits from novel viewpoints. By leveraging a number of input views alongside an identity embedding, our method effectively synthesizes diverse viewpoints of a subject whilst robustly maintaining its unique identity features. Through experimentation, we showcase our model's generation capabilities in 360 head synthesis, while beating current state-of-the-art multiview diffusion models.
- Abstract(参考訳): 近年の拡散モデルの発展にもかかわらず、新しい視点から現実的な頭部像を生成することは大きな課題である。
現在のアプローチのほとんどは、主に正面または前方の視点に焦点を絞った、限られた角度範囲に制約されている。
さらに,最近の大規模拡散モデルでは3次元シーンの処理に堅牢であることが証明されているが,複雑な構造と不毛の谷の落とし穴を考えると,顔データでは性能が劣っている。
本稿では,新しい視点から一貫した正確な頭部像を生成するための拡散型アプローチであるSpinMeRoundを提案する。
本手法は,複数の入力ビューをアイデンティティ埋め込みとともに活用することにより,その特徴をしっかりと維持しつつ,対象者の多様な視点を効果的に合成する。
実験により,現状のマルチビュー拡散モデルに勝りながら,モデル生成能力を360ヘッド合成で示す。
関連論文リスト
- CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation [59.257513664564996]
テキストプロンプトや画像から360度パノラマを生成する新しい手法を提案する。
我々は多視点拡散モデルを用いて立方体の6つの面を合成する。
本モデルでは,テキストのきめ細かい制御,高解像度パノラマ画像の生成,トレーニングセットを越えた一般化を実現している。
論文 参考訳(メタデータ) (2025-01-28T18:59:49Z) - Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations [7.448124739584319]
人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。
具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。
提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-04T04:02:17Z) - Identity Preserving 3D Head Stylization with Multiview Score Distillation [7.8340104876025105]
3Dヘッドスタイリングは、リアルな顔の特徴を芸術的な表現に変換し、ゲームやバーチャルリアリティーアプリケーションにおけるユーザーのエンゲージメントを高める。
本稿では,PanoHeadモデルを活用することで,360度の総合的な視点から画像を合成することで,これらの課題に対処する。
本稿では, 否定対数類似蒸留(LD)を利用した新しい枠組みを提案し, アイデンティティの保存とスタイリゼーション品質の向上を図る。
論文 参考訳(メタデータ) (2024-11-20T18:37:58Z) - Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。
本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。
実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文 参考訳(メタデータ) (2024-11-15T17:19:18Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Zero-to-Hero: Enhancing Zero-Shot Novel View Synthesis via Attention Map Filtering [16.382098950820822]
我々は、注目マップを操作することでビュー合成を強化する新しいテストタイムアプローチであるZero-to-Heroを提案する。
我々は、ソースビューからの情報を統合するために自己認識機構を変更し、形状歪みを低減する。
結果は、分散オブジェクトの多様なセットで検証された、忠実性と一貫性の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-05-29T00:58:22Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。