論文の概要: Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments
for Embodied AI
- arxiv url: http://arxiv.org/abs/2109.08238v1
- Date: Thu, 16 Sep 2021 22:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:51:27.034738
- Title: Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments
for Embodied AI
- Title(参考訳): Habitat-Matterport 3D Dataset (HM3D):1000の大規模3D環境
- Authors: Santhosh K. Ramakrishnan, Aaron Gokaslan, Erik Wijmans, Oleksandr
Maksymets, Alex Clegg, John Turner, Eric Undersander, Wojciech Galuba, Andrew
Westbury, Angel X. Chang, Manolis Savva, Yili Zhao, Dhruv Batra
- Abstract要約: HM3D は 112.5k m2 の空間を持ち、MP3D や Gibson のような他のビルスケールデータセットよりも1.4-3.7倍大きい。
HM3Dで撮影された画像は、実際のカメラで撮影した画像よりも20~85%高い視力を持つ。
HM3DトレーニングされたPointNavエージェントは、Gibson-testデータセット上で100%のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 55.475530452838946
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present the Habitat-Matterport 3D (HM3D) dataset. HM3D is a large-scale
dataset of 1,000 building-scale 3D reconstructions from a diverse set of
real-world locations. Each scene in the dataset consists of a textured 3D mesh
reconstruction of interiors such as multi-floor residences, stores, and other
private indoor spaces.
HM3D surpasses existing datasets available for academic research in terms of
physical scale, completeness of the reconstruction, and visual fidelity. HM3D
contains 112.5k m^2 of navigable space, which is 1.4 - 3.7x larger than other
building-scale datasets such as MP3D and Gibson. When compared to existing
photorealistic 3D datasets such as Replica, MP3D, Gibson, and ScanNet, images
rendered from HM3D have 20 - 85% higher visual fidelity w.r.t. counterpart
images captured with real cameras, and HM3D meshes have 34 - 91% fewer
artifacts due to incomplete surface reconstruction.
The increased scale, fidelity, and diversity of HM3D directly impacts the
performance of embodied AI agents trained using it. In fact, we find that HM3D
is `pareto optimal' in the following sense -- agents trained to perform
PointGoal navigation on HM3D achieve the highest performance regardless of
whether they are evaluated on HM3D, Gibson, or MP3D. No similar claim can be
made about training on other datasets. HM3D-trained PointNav agents achieve
100% performance on Gibson-test dataset, suggesting that it might be time to
retire that episode dataset.
- Abstract(参考訳): habitat-matterport 3d (hm3d)データセットを提案する。
HM3Dは、多種多様な現実世界の場所から1000の大規模3D再構築データセットである。
データセットの各シーンは、マルチフロアの住居、店舗、その他のプライベートな屋内空間などの内部をテクスチャ化された3dメッシュで再構築する。
HM3Dは、物理スケール、再構築の完全性、視覚的忠実性の観点から、学術研究で利用可能な既存のデータセットを超越している。
HM3Dは、航行可能な空間の112.5k m^2を含み、MP3DやGibsonのような他のビルスケールデータセットよりも1.4-3.7倍大きい。
replica、mp3d、gibson、scannetといった既存のフォトリアリスティックな3dデータセットと比較すると、hm3dで描画された画像は、実際のカメラで撮影された画像の忠実度が20から85%高くなり、hm3dメッシュは不完全な表面再構成のために人工物が34から91%少ない。
HM3Dの規模、忠実度、多様性の増大は、それをトレーニングしたエンボディAIエージェントのパフォーマンスに直接影響する。
実際、HM3Dは以下の意味で「最適」であり、HM3D上でPointGoalナビゲーションを実行するように訓練されたエージェントは、HM3D、Gibson、MP3Dで評価されたかどうかに関わらず、最高性能を達成する。
他のデータセットでのトレーニングについても、同様の主張はできない。
HM3DでトレーニングされたPointNavエージェントは、Gibson-testデータセット上で100%のパフォーマンスを達成した。
関連論文リスト
- 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Habitat-Matterport 3D Semantics Dataset [72.14295757568439]
HM3DSEMは3Dの現実世界空間の最大のデータセットであり、現在学術的なコミュニティで利用可能な注釈付きセマンティクスがある。
216の3D空間にまたがる142,646のオブジェクトインスタンスアノテーションと、それらの空間内に3,100の部屋で構成されている。
論文 参考訳(メタデータ) (2022-10-11T17:25:51Z) - Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild [32.05421669957098]
大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。
我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。
より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:56:22Z) - HM3D-ABO: A Photo-realistic Dataset for Object-centric Multi-view 3D
Reconstruction [37.29140654256627]
本稿では、フォトリアリスティックなオブジェクト中心データセットHM3D-ABOを提案する。
リアルな屋内シーンとリアルなオブジェクトを構成することで構築される。
このデータセットは、カメラポーズ推定やノベルビュー合成といったタスクにも有用である。
論文 参考訳(メタデータ) (2022-06-24T16:02:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。