論文の概要: Steerable Scene Generation with Post Training and Inference-Time Search
- arxiv url: http://arxiv.org/abs/2505.04831v1
- Date: Wed, 07 May 2025 22:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.686511
- Title: Steerable Scene Generation with Post Training and Inference-Time Search
- Title(参考訳): ポストトレーニングと推論時間探索によるステアブルシーン生成
- Authors: Nicholas Pfaff, Hongkai Dai, Sergey Zakharov, Shun Iwase, Russ Tedrake,
- Abstract要約: シミュレーションのトレーニングロボットは、下流タスクの特定の課題を反映した多様な3Dシーンを必要とする。
ロボット操作のための現実的な環境を近似した手続きモデルを用いて大規模シーンデータを生成する。
5つの異なる環境にまたがる4400万のSE(3)シーンのデータセットをリリースします。
- 参考スコア(独自算出の注目度): 24.93360616245269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training robots in simulation requires diverse 3D scenes that reflect the specific challenges of downstream tasks. However, scenes that satisfy strict task requirements, such as high-clutter environments with plausible spatial arrangement, are rare and costly to curate manually. Instead, we generate large-scale scene data using procedural models that approximate realistic environments for robotic manipulation, and adapt it to task-specific goals. We do this by training a unified diffusion-based generative model that predicts which objects to place from a fixed asset library, along with their SE(3) poses. This model serves as a flexible scene prior that can be adapted using reinforcement learning-based post training, conditional generation, or inference-time search, steering generation toward downstream objectives even when they differ from the original data distribution. Our method enables goal-directed scene synthesis that respects physical feasibility and scales across scene types. We introduce a novel MCTS-based inference-time search strategy for diffusion models, enforce feasibility via projection and simulation, and release a dataset of over 44 million SE(3) scenes spanning five diverse environments. Website with videos, code, data, and model weights: https://steerable-scene-generation.github.io/
- Abstract(参考訳): シミュレーションのトレーニングロボットは、下流タスクの特定の課題を反映した多様な3Dシーンを必要とする。
しかし, 空間配置が妥当な高空間環境など, 厳密な作業要件を満たすシーンは, 手作業でキュレートするには稀で費用がかかる。
代わりに、ロボット操作のための現実的な環境を近似した手続きモデルを用いて大規模シーンデータを生成し、タスク固有の目標に適応する。
固定資産ライブラリからどのオブジェクトを配置すべきかを,SE(3)のポーズとともに予測する統合拡散ベース生成モデルをトレーニングすることで,これを実現できる。
このモデルは、強化学習に基づくポストトレーニング、条件付き生成、あるいは推論時間探索を用いて適応できるフレキシブルなシーンとして機能する。
本手法は,シーンタイプにまたがる物理的な実現可能性やスケールを尊重する,ゴール指向シーン合成を可能にする。
我々は,拡散モデルのための新しいMCTSベースの推論時探索戦略を導入し,予測とシミュレーションにより実現可能性を高め,5つの異なる環境にまたがる4400万のSE(3)シーンのデータセットをリリースする。
ビデオ、コード、データ、モデルウェイトを持つウェブサイト:https://steerable-scene-generation.github.io/
関連論文リスト
- Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving [27.088907562842902]
自律運転では、3Dセマンティックセグメンテーションが安全なナビゲーションを可能にする重要な役割を果たす。
3Dデータの収集と注釈付けの複雑さは、この開発のボトルネックである。
本稿では,3次元のセマンティック・シーン・スケールのデータを投影モデルやデカップリングモデルに頼らずに生成する手法を提案する。
論文 参考訳(メタデータ) (2025-03-27T12:41:42Z) - Purposer: Putting Human Motion Generation in Context [30.706219830149504]
本研究では,3次元屋内シーンに人間の動きを再現する新しい手法を提案する。
シーン内のパス、ターゲットポーズ、過去の動き、そして3Dポイントの雲として表されるシーンなど、様々な条件信号の組み合わせで制御できる。
論文 参考訳(メタデータ) (2024-04-19T15:16:04Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - NSLF-OL: Online Learning of Neural Surface Light Fields alongside
Real-time Incremental 3D Reconstruction [0.76146285961466]
そこで本研究では,視線方向の小さな方向に対応できるニューラルサーフェス光場モデルを提案する。
我々のモデルは、リアルタイムな3次元再構成の他に、シーケンシャルなデータストリームを共有入力として、ニューラルネットワーク光場(NSLF)をオンラインで学習する。
オンライントレーニングに加えて、可視化のためにデータストリームを完了した後のリアルタイムレンダリングも提供する。
論文 参考訳(メタデータ) (2023-04-29T15:41:15Z) - Diffusion-based Generation, Optimization, and Planning in 3D Scenes [89.63179422011254]
本稿では,3次元シーン理解のための条件付き生成モデルであるSceneDiffuserを紹介する。
SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。
従来のモデルに比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-01-15T03:43:45Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。
本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。
私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文 参考訳(メタデータ) (2020-05-12T10:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。