Fugu-MT 論文翻訳(概要): MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

論文の概要: MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement

arxiv url: http://arxiv.org/abs/2408.14211v1
Date: Mon, 26 Aug 2024 12:10:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 14:13:24.736963
Title: MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement
Title（参考訳）: MagicMan: 3D-Aware Diffusion とイテレーティブリファインメントによる人間の創造的視点合成
Authors: Xu He, Xiaoyu Li, Di Kang, Jiangnan Ye, Chaopeng Zhang, Liyang Chen, Xiangjun Gao, Han Zhang, Zhiyong Wu, Haolin Zhuang,
Abstract要約: 単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
参考スコア（独自算出の注目度）: 23.707586182294932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing works in single-image human reconstruction suffer from weak generalizability due to insufficient training data or 3D inconsistencies for a lack of comprehensive multi-view knowledge. In this paper, we introduce MagicMan, a human-specific multi-view diffusion model designed to generate high-quality novel view images from a single reference image. As its core, we leverage a pre-trained 2D diffusion model as the generative prior for generalizability, with the parametric SMPL-X model as the 3D body prior to promote 3D awareness. To tackle the critical challenge of maintaining consistency while achieving dense multi-view generation for improved 3D human reconstruction, we first introduce hybrid multi-view attention to facilitate both efficient and thorough information interchange across different views. Additionally, we present a geometry-aware dual branch to perform concurrent generation in both RGB and normal domains, further enhancing consistency via geometry cues. Last but not least, to address ill-shaped issues arising from inaccurate SMPL-X estimation that conflicts with the reference image, we propose a novel iterative refinement strategy, which progressively optimizes SMPL-X accuracy while enhancing the quality and consistency of the generated multi-views. Extensive experimental results demonstrate that our method significantly outperforms existing approaches in both novel view synthesis and subsequent 3D human reconstruction tasks.
Abstract（参考訳）: 単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。本稿では,単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。本研究の核となるのは,3次元認識の促進に先立って,パラメトリックSMPL-Xモデルを3次元体として,事前学習した2次元拡散モデルを活用することである。 3次元の再現性を向上させるために高密度なマルチビュー生成を実現しつつ、一貫性を維持するための重要な課題に取り組むために、まず、異なる視点をまたいだ効率的な情報交換と徹底的な情報交換を容易にするために、ハイブリッドなマルチビューアテンションを導入する。さらに、RGB領域と正規領域の両方で同時生成を行うための幾何対応の二重分岐を提案し、幾何学的手がかりによる整合性をさらに強化する。最後に,参照画像と矛盾する不正確なSMPL-X推定から生じる不正確な問題に対処するために,生成したマルチビューの品質と一貫性を向上しつつ,段階的にSMPL-X精度を最適化する新たな反復改善戦略を提案する。大規模な実験結果から,本手法は新規なビュー合成とその後の3次元再構成作業において,既存手法よりも大幅に優れていたことが示唆された。

関連論文リスト

SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文参考訳（メタデータ） (2025-04-09T15:38:18Z)
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration [29.03216532351979]
textbfHumanDreamer-Xは、マルチビューのヒューマン生成と再構築を統合パイプラインに統合する新しいフレームワークである。このフレームワークでは、初期幾何学と外観優先を提供するために、3Dガウススプラッティングが明示的な3D表現として機能する。また,多視点にわたる幾何的細部アイデンティティの整合性を効果的に向上するアテンション変調戦略を提案する。
論文参考訳（メタデータ） (2025-04-04T15:35:14Z)
MVD-HuGaS: Human Gaussians from a Single Image via 3D Human Multi-view Diffusion Prior [35.704591162502375]
EmphMVD-HuGaSは,複数視点の人体拡散モデルを用いて,単一の画像から自由視点の3Dレンダリングを可能にする。 T Human2.0と2K2Kデータセットの実験により、提案されたMVD-HuGaSは、単一ビューの3Dレンダリングで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-03-11T09:37:15Z)
CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
本研究では,1枚の画像から一対一かつ時間的にコヒーレントなアバターを合成する枠組みを提案する。提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせたものである。
論文参考訳（メタデータ） (2025-02-10T19:00:39Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
MultiGO: Towards Multi-level Geometry Learning for Monocular 3D Textured Human Reconstruction [4.457326808146675]
本稿では, 単眼画像から3次元布体を再構築する研究課題について検討する。既存のアプローチでは、事前訓練されたSMPL(-X)推定モデルや生成モデルを利用して、人間の再構築に補助情報を提供する。技術的には,骨格レベルの強化,関節レベルの強化,輪郭レベルの改良モジュールの3つの重要なコンポーネントを設計する。
論文参考訳（メタデータ） (2024-12-04T08:06:06Z)
DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文参考訳（メタデータ） (2024-11-16T03:52:23Z)
GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文参考訳（メタデータ） (2024-03-15T12:24:36Z)
Template-Free Single-View 3D Human Digitalization with Diffusion-Guided LRM [29.13412037370585]
本稿では,拡散誘導フィードフォワードモデルであるHuman-LRMを提案する。本手法は,例えばSMPLなどのテンプレートを使わずにヒトを捕獲し,リッチでリアルなディテールで咬合部を効果的に増強することができる。
論文参考訳（メタデータ） (2024-01-22T18:08:22Z)
MVHuman: Tailoring 2D Diffusion with Multi-view Sampling For Realistic 3D Human Generation [45.88714821939144]
テキスト誘導から人間の放射界を生成するためのMVHumanという代替スキームを提案する。我々のコアは、一貫したマルチビュー画像を生成するための事前学習されたネットワークのデノイングプロセスを調整するためのマルチビューサンプリング戦略である。
論文参考訳（メタデータ） (2023-12-15T11:56:26Z)
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-02T02:27:58Z)
Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文参考訳（メタデータ） (2023-10-23T15:02:23Z)
Sparse3D: Distilling Multiview-Consistent Diffusion for Object Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文参考訳（メタデータ） (2023-08-27T11:52:00Z)
IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文参考訳（メタデータ） (2023-08-22T14:39:17Z)
Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2022-12-10T06:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。