論文の概要: MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans
- arxiv url: http://arxiv.org/abs/2505.02388v1
- Date: Mon, 05 May 2025 06:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.572339
- Title: MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans
- Title(参考訳): MetaScenes:現実世界の3Dスキャンのための自動レプリカ作成を目指して
- Authors: Huangyue Yu, Baoxiong Jia, Yixin Chen, Yandan Yang, Puhao Li, Rongpeng Su, Jiaxin Li, Qing Li, Wei Liang, Song-Chun Zhu, Tengyu Liu, Siyuan Huang,
- Abstract要約: EAI(Embodied AI)の研究は、スキル獲得、シミュレート・トゥ・リアル・トランスファー、一般化をサポートするために、高品質で多様な3Dシーンを必要とする。
既存のデータセットは、このプロセスがアーティスト主導の設計に大きく依存していることを示している。
実世界のスキャンから構築した大規模でシミュレート可能な3DシーンデータセットであるMetaScenesを提案する。
- 参考スコア(独自算出の注目度): 76.39726619818896
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Embodied AI (EAI) research requires high-quality, diverse 3D scenes to effectively support skill acquisition, sim-to-real transfer, and generalization. Achieving these quality standards, however, necessitates the precise replication of real-world object diversity. Existing datasets demonstrate that this process heavily relies on artist-driven designs, which demand substantial human effort and present significant scalability challenges. To scalably produce realistic and interactive 3D scenes, we first present MetaScenes, a large-scale, simulatable 3D scene dataset constructed from real-world scans, which includes 15366 objects spanning 831 fine-grained categories. Then, we introduce Scan2Sim, a robust multi-modal alignment model, which enables the automated, high-quality replacement of assets, thereby eliminating the reliance on artist-driven designs for scaling 3D scenes. We further propose two benchmarks to evaluate MetaScenes: a detailed scene synthesis task focused on small item layouts for robotic manipulation and a domain transfer task in vision-and-language navigation (VLN) to validate cross-domain transfer. Results confirm MetaScene's potential to enhance EAI by supporting more generalizable agent learning and sim-to-real applications, introducing new possibilities for EAI research. Project website: https://meta-scenes.github.io/.
- Abstract(参考訳): EAI(Embodied AI)の研究は、スキル獲得、シミュレート・トゥ・リアル・トランスファー、一般化を効果的に支援するために、高品質で多様な3Dシーンを必要とする。
しかし、これらの品質基準を達成するためには、現実世界のオブジェクトの多様性を正確に再現する必要がある。
既存のデータセットは、このプロセスがアーティスト主導の設計に大きく依存していることを示している。
現実的でインタラクティブな3Dシーンを生成するために,我々はまず,831のきめ細かいカテゴリにまたがる15366個のオブジェクトを含む,大規模でシミュレート可能な3DシーンデータセットであるMetaScenesを提示する。
次に,Scan2Simを導入し,ロバストなマルチモーダルアライメントモデルについて述べる。
さらに、ロボット操作のための小項目レイアウトに焦点を当てた詳細なシーン合成タスクと、視覚・言語ナビゲーション(VLN)におけるドメイン転送タスクと、ドメイン間転送を検証するための2つのベンチマークを提案する。
結果は,より一般化可能なエージェント学習とシミュレート・トゥ・リアル・アプリケーションをサポートし,EAI研究に新たな可能性を導入することで,EAIを強化するMetaSceneの可能性を確認した。
プロジェクトウェブサイト: https://meta-scenes.github.io/.com
関連論文リスト
- LM-MCVT: A Lightweight Multi-modal Multi-view Convolutional-Vision Transformer Approach for 3D Object Recognition [5.317624228510749]
ロボットアプリケーションにおける3次元物体認識を強化するために,軽量マルチモーダル・マルチビュー・コンボリューショナル・ビジョン・トランスフォーマネットワーク(LM-MCVT)を提案する。
提案手法を合成モデルNet40データセット上で評価し,95.6%の認識精度を実現する。
その結果,合成および実世界の3Dデータ間での3Dオブジェクト認識における手法の堅牢性を示す。
論文 参考訳(メタデータ) (2025-04-27T14:30:16Z) - Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model [35.184607650708784]
Articulate-Anythingは、テキスト、画像、ビデオを含む多くの入力モダリティから、多種多様な複雑なオブジェクトの明瞭化を自動化する。
本システムでは,メッシュ検索機構を通じて既存の3Dデータセットを,反復的に提案,評価,洗練を行うアクタ・クリティカル・システムとともに活用する。
論文 参考訳(メタデータ) (2024-10-03T19:42:16Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。