論文の概要: InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
- arxiv url: http://arxiv.org/abs/2509.10813v2
- Date: Tue, 14 Oct 2025 05:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:31.99469
- Title: InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
- Title(参考訳): InternScenes: リアルタイムレイアウトを備えた大規模シミュラブル室内シーンデータセット
- Authors: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang,
- Abstract要約: InternScenesは、およそ4万の多様なシーンからなる、大規模でシミュレート可能な屋内シーンデータセットである。
シーン内の大量の小さなアイテムを保存し、結果として、領域ごとの平均41.5オブジェクトの現実的で複雑なレイアウトを実現します。
InternScenesの価値を、シーンレイアウト生成とポイントゴールナビゲーションの2つのベンチマークアプリケーションで示す。
- 参考スコア(独自算出の注目度): 36.53189513184921
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The advancement of Embodied AI heavily relies on large-scale, simulatable 3D scene datasets characterized by scene diversity and realistic layouts. However, existing datasets typically suffer from limitations in data scale or diversity, sanitized layouts lacking small items, and severe object collisions. To address these shortcomings, we introduce \textbf{InternScenes}, a novel large-scale simulatable indoor scene dataset comprising approximately 40,000 diverse scenes by integrating three disparate scene sources, real-world scans, procedurally generated scenes, and designer-created scenes, including 1.96M 3D objects and covering 15 common scene types and 288 object classes. We particularly preserve massive small items in the scenes, resulting in realistic and complex layouts with an average of 41.5 objects per region. Our comprehensive data processing pipeline ensures simulatability by creating real-to-sim replicas for real-world scans, enhances interactivity by incorporating interactive objects into these scenes, and resolves object collisions by physical simulations. We demonstrate the value of InternScenes with two benchmark applications: scene layout generation and point-goal navigation. Both show the new challenges posed by the complex and realistic layouts. More importantly, InternScenes paves the way for scaling up the model training for both tasks, making the generation and navigation in such complex scenes possible. We commit to open-sourcing the data, models, and benchmarks to benefit the whole community.
- Abstract(参考訳): Embodied AIの進歩は、シーンの多様性と現実的なレイアウトを特徴とする、大規模でシミュレート可能な3Dシーンデータセットに大きく依存している。
しかし、既存のデータセットは通常、データスケールや多様性の制限、小さなアイテムを欠いた衛生配置、厳しいオブジェクト衝突に悩まされる。
本稿では,3つの異なるシーンソース,実世界スキャン,プロシージャ生成シーン,デザイナ生成シーンを統合し,1.96Mの3Dオブジェクトを含む15の一般的なシーンタイプと288のオブジェクトクラスを合成することにより,約4万の多様なシーンからなる,新しい大規模シミュレート可能な屋内シーンデータセットである「textbf{InternScenes」を紹介する。
私たちは特に、シーン内の巨大な小さなアイテムを保存しています。その結果、現実的で複雑なレイアウトとなり、1つの領域あたり平均41.5オブジェクトになります。
我々の包括的データ処理パイプラインは、実世界のスキャンのためのリアルタイムレプリカを作成することで、シミュラビリティを確保し、これらのシーンにインタラクティブなオブジェクトを組み込むことで対話性を高め、物理的シミュレーションによってオブジェクト衝突を解決する。
InternScenesの価値を、シーンレイアウト生成とポイントゴールナビゲーションの2つのベンチマークアプリケーションで示す。
どちらも、複雑で現実的なレイアウトによって引き起こされる新しい課題を示しています。
さらに重要なのは、InternScenesは両方のタスクのモデルトレーニングをスケールアップする方法を開拓し、このような複雑なシーンにおける生成とナビゲーションを可能にすることだ。
コミュニティ全体に利益をもたらすために、データ、モデル、ベンチマークをオープンソースにすることを約束します。
関連論文リスト
- SPATIALGEN: Layout-guided 3D Indoor Scene Generation [37.30623176278608]
本研究では,現実的でセマンティックに整合した室内シーンを生成するマルチビューマルチモーダル拡散モデルであるSpatialGenを提案する。
3次元レイアウトと参照画像が与えられたモデルでは、任意の視点から外観(カラー画像)、幾何学(シーン座標マップ)、意味(セマンティックセグメンテーションマップ)を合成する。
私たちは、コミュニティを力づけ、屋内のシーン理解と生成の分野を前進させるために、データとモデルをオープンソース化しています。
論文 参考訳(メタデータ) (2025-09-18T14:12:32Z) - RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。
このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。
RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-27T15:03:17Z) - MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans [76.39726619818896]
EAI(Embodied AI)の研究は、スキル獲得、シミュレート・トゥ・リアル・トランスファー、一般化をサポートするために、高品質で多様な3Dシーンを必要とする。
既存のデータセットは、このプロセスがアーティスト主導の設計に大きく依存していることを示している。
実世界のスキャンから構築した大規模でシミュレート可能な3DシーンデータセットであるMetaScenesを提案する。
論文 参考訳(メタデータ) (2025-05-05T06:13:25Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene
Scale and Realism Tradeoffs for ObjectGoal Navigation [70.82403156865057]
本研究では,合成3次元シーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。
我々の実験によると、我々の小規模データセットで訓練されたエージェントは、はるかに大きなデータセットで訓練されたエージェントと一致するか、より優れています。
論文 参考訳(メタデータ) (2023-06-20T05:07:23Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文 参考訳(メタデータ) (2020-09-25T18:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。