論文の概要: DORSal: Diffusion for Object-centric Representations of Scenes
$\textit{et al.}$
- arxiv url: http://arxiv.org/abs/2306.08068v1
- Date: Tue, 13 Jun 2023 18:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 23:12:32.043734
- Title: DORSal: Diffusion for Object-centric Representations of Scenes
$\textit{et al.}$
- Title(参考訳): DORSal: Scenes $\textit{et al. オブジェクト中心表現の拡散。
}$
- Authors: Allan Jabri, Sjoerd van Steenkiste, Emiel Hoogeboom, Mehdi S. M.
Sajjadi, Thomas Kipf
- Abstract要約: 最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
本稿では,オブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
- 参考スコア(独自算出の注目度): 27.937715415660882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in 3D scene understanding enables scalable learning of
representations across large datasets of diverse scenes. As a consequence,
generalization to unseen scenes and objects, rendering novel views from just a
single or a handful of input images, and controllable scene generation that
supports editing, is now possible. However, training jointly on a large number
of scenes typically compromises rendering quality when compared to single-scene
optimized models such as NeRFs. In this paper, we leverage recent progress in
diffusion models to equip 3D scene representation learning models with the
ability to render high-fidelity novel views, while retaining benefits such as
object-level scene editing to a large degree. In particular, we propose DORSal,
which adapts a video diffusion architecture for 3D scene generation conditioned
on object-centric slot-based representations of scenes. On both complex
synthetic multi-object scenes and on the real-world large-scale Street View
dataset, we show that DORSal enables scalable neural rendering of 3D scenes
with object-level editing and improves upon existing approaches.
- Abstract(参考訳): 最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
結果として、見えないシーンやオブジェクトへの一般化、単一のまたは少数の入力画像からの新規ビューのレンダリング、編集をサポートする制御可能なシーン生成が可能になった。
しかし、多数のシーンでの共同トレーニングは、NeRFのようなシングルシーン最適化モデルと比較してレンダリング品質を損なうのが一般的である。
本稿では,拡散モデルの最近の進歩を利用して,オブジェクトレベルのシーン編集などのメリットを最大限に保ちながら,高忠実度な新規ビューを描画できる3次元シーン表現学習モデルを実現する。
特に,オブジェクト中心のスロットベースのシーン表現に基づく3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
複雑な合成多目的シーンと実世界の大規模ストリートビューデータセットの両方において、DORSalはオブジェクトレベルの編集と既存のアプローチの改善による3Dシーンのスケーラブルなニューラルレンダリングを実現する。
関連論文リスト
- MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - GAUDI: A Neural Architect for Immersive 3D Scene Generation [67.97817314857917]
GAUDIは、動くカメラから没入的にレンダリングできる複雑な3Dシーンの分布をキャプチャできる生成モデルである。
GAUDIは,複数のデータセットにまたがる非条件生成環境において,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-27T19:10:32Z) - Control-NeRF: Editable Feature Volumes for Scene Rendering and
Manipulation [58.16911861917018]
高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現するための新しい手法を提案する。
モデルペアはシーンに依存しないニューラルネットワークを用いてシーン固有の特徴ボリュームを学習する。
我々は、シーンの混合、オブジェクトの変形、シーンへのオブジェクト挿入など、さまざまなシーン操作を実証すると同時に、写真リアリスティックな結果も生成する。
論文 参考訳(メタデータ) (2022-04-22T17:57:00Z) - Unconstrained Scene Generation with Locally Conditioned Radiance Fields [24.036609880683585]
シーンを局所的な放射領域の集合体に分解することを学ぶGenerative Scene Networks(GSN)を紹介します。
私たちのモデルは、新しいシーンの生成や、スパースな2d観察のみのシーンの完了に先立って使用することが可能です。
論文 参考訳(メタデータ) (2021-04-01T17:58:26Z) - Equivariant Neural Rendering [22.95150913645939]
本稿では,3次元の監督なしに画像から直接ニューラルシーン表現を学習するためのフレームワークを提案する。
我々の重要な洞察は、学習された表現が本物の3Dシーンのように変換されることを保証することで、3D構造を課すことである。
私たちの定式化によって、推論に数分を要するモデルに匹敵する結果を得ながら、リアルタイムでシーンを推測および描画することが可能になります。
論文 参考訳(メタデータ) (2020-06-13T12:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。