論文の概要: SViM3D: Stable Video Material Diffusion for Single Image 3D Generation
- arxiv url: http://arxiv.org/abs/2510.08271v1
- Date: Thu, 09 Oct 2025 14:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.127585
- Title: SViM3D: Stable Video Material Diffusion for Single Image 3D Generation
- Title(参考訳): SViM3D:シングルイメージ3D生成のための安定なビデオ材料拡散
- Authors: Andreas Engelhardt, Mark Boss, Vikram Voletti, Chun-Han Yao, Hendrik P. A. Lensch, Varun Jampani,
- Abstract要約: ビデオ拡散モデルは、1つの画像から3Dオブジェクトを効率的に再構成するのに成功している。
我々は,映像拡散モデルを拡張し,空間的に変化するPBRパラメータと表面正規度を,明示的なカメラ制御に基づいて各生成したビューと共同で出力する。
このユニークなセットアップにより、私たちのモデルをニューラルプリエントとして使用した3Dアセットのリライトと生成が可能になります。
- 参考スコア(独自算出の注目度): 46.03265001089448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Stable Video Materials 3D (SViM3D), a framework to predict multi-view consistent physically based rendering (PBR) materials, given a single image. Recently, video diffusion models have been successfully used to reconstruct 3D objects from a single image efficiently. However, reflectance is still represented by simple material models or needs to be estimated in additional steps to enable relighting and controlled appearance edits. We extend a latent video diffusion model to output spatially varying PBR parameters and surface normals jointly with each generated view based on explicit camera control. This unique setup allows for relighting and generating a 3D asset using our model as neural prior. We introduce various mechanisms to this pipeline that improve quality in this ill-posed setting. We show state-of-the-art relighting and novel view synthesis performance on multiple object-centric datasets. Our method generalizes to diverse inputs, enabling the generation of relightable 3D assets useful in AR/VR, movies, games and other visual media.
- Abstract(参考訳): 静止映像材料3D(SViM3D)は,1枚の画像から多視点一貫した物理ベースレンダリング(PBR)素材を予測するためのフレームワークである。
近年,映像拡散モデルを用いて1枚の画像から3Dオブジェクトを効率的に再構成する手法が開発されている。
しかし、リフレクタンスはまだシンプルな素材モデルで表現されており、リライティングと制御された外観編集を可能にするために追加のステップで推定する必要がある。
我々は,映像拡散モデルを拡張し,空間的に変化するPBRパラメータと表面正規度を,明示的なカメラ制御に基づいて各生成したビューと共同で出力する。
このユニークなセットアップは、私たちのモデルをニューラルなプリミティブとして使用することで、3Dアセットのリライトと生成を可能にします。
このパイプラインに様々なメカニズムを導入し、この不適切な設定の品質を改善する。
複数のオブジェクト中心のデータセット上で、最先端のリライトと新しいビュー合成性能を示す。
そこで本手法は,AR/VR,映画,ゲーム,その他の視覚メディアに有用な3Dアセットの生成を可能にする。
関連論文リスト
- Large Material Gaussian Model for Relightable 3D Generation [54.10879517395551]
物理ベースレンダリング(PBR)素材を用いた高品質な3Dコンテンツ作成のための新しいフレームワークを提案する。
また,本手法は,ベースライン法に比べて視覚的魅力が向上するだけでなく,材料モデリングも向上し,下流レンダリングの実用化を可能にした。
論文 参考訳(メタデータ) (2025-09-26T09:35:12Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation [15.215597253086612]
我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。
シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。
Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
論文 参考訳(メタデータ) (2024-12-03T17:58:07Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。