論文の概要: Diffusion-based Generation, Optimization, and Planning in 3D Scenes
- arxiv url: http://arxiv.org/abs/2301.06015v1
- Date: Sun, 15 Jan 2023 03:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-01-18 17:50:14.969236
- Title: Diffusion-based Generation, Optimization, and Planning in 3D Scenes
- Title(参考訳): 拡散に基づく3次元シーンの生成・最適化・計画
- Authors: Siyuan Huang, Zan Wang, Puhao Li, Baoxiong Jia, Tengyu Liu, Yixin Zhu,
Wei Liang, Song-Chun Zhu
- Abstract要約: 本稿では,3次元シーン理解のための条件付き生成モデルであるSceneDiffuserを紹介する。
SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。
従来のモデルに比べて大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 89.63179422011254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SceneDiffuser, a conditional generative model for 3D scene
understanding. SceneDiffuser provides a unified model for solving
scene-conditioned generation, optimization, and planning. In contrast to prior
works, SceneDiffuser is intrinsically scene-aware, physics-based, and
goal-oriented. With an iterative sampling strategy, SceneDiffuser jointly
formulates the scene-aware generation, physics-based optimization, and
goal-oriented planning via a diffusion-based denoising process in a fully
differentiable fashion. Such a design alleviates the discrepancies among
different modules and the posterior collapse of previous scene-conditioned
generative models. We evaluate SceneDiffuser with various 3D scene
understanding tasks, including human pose and motion generation, dexterous
grasp generation, path planning for 3D navigation, and motion planning for
robot arms. The results show significant improvements compared with previous
models, demonstrating the tremendous potential of SceneDiffuser for the broad
community of 3D scene understanding.
- Abstract(参考訳): 3dシーン理解のための条件付き生成モデルである scenediffuser を紹介する。
SceneDiffuserは、シーン条件付き生成、最適化、計画を解決する統一モデルを提供する。
以前の作品とは対照的に、SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。
反復的なサンプリング戦略により、シーンディフューザーは拡散に基づく分別処理を通じてシーンアウェア生成、物理ベースの最適化、ゴール指向計画を完全に微分可能な方法で共同で定式化する。
このような設計は、異なるモジュール間の相違や、以前のシーン条件生成モデルの後方崩壊を緩和する。
本研究では,人間のポーズや動きの生成,デクタブルな把持生成,3次元ナビゲーションの経路計画,ロボットアームの動作計画など,さまざまな3次元シーン理解タスクでシーンディフューザを評価する。
その結果,従来のモデルに比べて大幅に改善され,3dシーン理解の広いコミュニティにおけるscenediffuserの可能性が示された。
関連論文リスト
- CasaGPT: Cuboid Arrangement and Scene Assembly for Interior Design [35.11283253765395]
室内シーン合成のための新しい手法として,分解した立方体プリミティブをシーン内の3次元オブジェクトに配置する手法を提案する。
提案手法はCuboid Arrangement and Scene AssemblyのCasaGPTと呼ばれ, 自動回帰モデルを用いてキューブを逐次配置し, 物理的に可視なシーンを生成する。
論文 参考訳(メタデータ) (2025-04-28T04:35:04Z) - 3D Scene Understanding Through Local Random Access Sequence Modeling [12.689247678229382]
単一画像からの3Dシーン理解は、コンピュータビジョンにおいて重要な問題である。
本稿では、LRAS(Local Random Access Sequence)モデリングと呼ばれる自己回帰生成手法を提案する。
光学フローを3次元シーン編集の中間表現として利用することにより、LRASが最先端の新規ビュー合成と3次元オブジェクト操作機能を実現することを示す。
論文 参考訳(メタデータ) (2025-04-04T18:59:41Z) - Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors [52.63385546943866]
本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。
我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
論文 参考訳(メタデータ) (2025-01-05T12:20:13Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - DORSal: Diffusion for Object-centric Representations of Scenes et al [28.181157214966493]
最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
本研究では,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
論文 参考訳(メタデータ) (2023-06-13T18:32:35Z) - GAUDI: A Neural Architect for Immersive 3D Scene Generation [67.97817314857917]
GAUDIは、動くカメラから没入的にレンダリングできる複雑な3Dシーンの分布をキャプチャできる生成モデルである。
GAUDIは,複数のデータセットにまたがる非条件生成環境において,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-27T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。