論文の概要: ARKitScenes -- A Diverse Real-World Dataset For 3D Indoor Scene
Understanding Using Mobile RGB-D Data
- arxiv url: http://arxiv.org/abs/2111.08897v1
- Date: Wed, 17 Nov 2021 04:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 20:37:52.363639
- Title: ARKitScenes -- A Diverse Real-World Dataset For 3D Indoor Scene
Understanding Using Mobile RGB-D Data
- Title(参考訳): ARKitScenes - モバイルRGB-Dデータを用いた3次元屋内シーン理解のための多次元リアルタイムデータセット
- Authors: Gilad Baruch, Zhuoyuan Chen, Afshin Dehghan, Tal Dimry, Yuri Feigin,
Peter Fu, Thomas Gebauer, Brandon Joffe, Daniel Kurz, Arik Schwartz, Elad
Shulman
- Abstract要約: Kinectのような商用深度センサーは、過去数年間でいくつかのRGB-Dデータセットのリリースを可能にした。
さらに最近では、AppleのiPadとiPhoneでLiDARセンサーがローンチされ、高品質のRGB-Dデータは、一般のデバイスで何百万人もの人にアクセスできるようになりました。
私たちはARKitScenesを紹介します。これは、現在広く利用可能な深度センサーでキャプチャされた最初のRGB-Dデータセットです。
- 参考スコア(独自算出の注目度): 3.782277759568992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene understanding is an active research area. Commercial depth sensors,
such as Kinect, have enabled the release of several RGB-D datasets over the
past few years which spawned novel methods in 3D scene understanding. More
recently with the launch of the LiDAR sensor in Apple's iPads and iPhones, high
quality RGB-D data is accessible to millions of people on a device they
commonly use. This opens a whole new era in scene understanding for the
Computer Vision community as well as app developers. The fundamental research
in scene understanding together with the advances in machine learning can now
impact people's everyday experiences. However, transforming these scene
understanding methods to real-world experiences requires additional innovation
and development. In this paper we introduce ARKitScenes. It is not only the
first RGB-D dataset that is captured with a now widely available depth sensor,
but to our best knowledge, it also is the largest indoor scene understanding
data released. In addition to the raw and processed data from the mobile
device, ARKitScenes includes high resolution depth maps captured using a
stationary laser scanner, as well as manually labeled 3D oriented bounding
boxes for a large taxonomy of furniture. We further analyze the usefulness of
the data for two downstream tasks: 3D object detection and color-guided depth
upsampling. We demonstrate that our dataset can help push the boundaries of
existing state-of-the-art methods and it introduces new challenges that better
represent real-world scenarios.
- Abstract(参考訳): 現場理解は活発な研究分野である。
Kinectのような商用深度センサーは、過去数年間でいくつかのRGB-Dデータセットをリリースし、新しい3Dシーン理解法を生み出した。
さらに最近では、AppleのiPadとiPhoneでLiDARセンサーがローンチされ、高品質のRGB-Dデータは、一般のデバイスで何百万人もの人にアクセスできるようになりました。
これは、コンピュータビジョンコミュニティとアプリ開発者にとって、全く新しい状況理解の時代を開くものだ。
シーン理解の基礎研究と機械学習の進歩は、今や人々の日常体験に影響を与えうる。
しかし、これらのシーン理解方法を実世界体験に変換するには、さらなるイノベーションと開発が必要である。
本稿ではARKitScenesを紹介する。
これは、現在広く利用可能な深度センサーでキャプチャされる最初のRGB-Dデータセットであるだけでなく、私たちの知る限り、屋内のシーン理解データとしては最大である。
モバイルデバイスの生データや処理データに加えて、ARKitScenesには静止レーザースキャナーでキャプチャした高解像度の深度マップや、家具の大規模な分類のための手動で3D指向のバウンディングボックスが含まれている。
さらに、3Dオブジェクト検出と色誘導深度アップサンプリングという2つの下流タスクにおけるデータの有用性を分析した。
私たちのデータセットは、既存の最先端メソッドの境界を押し上げるのに役立ち、現実世界のシナリオをより良く表現する新しい課題を導入します。
関連論文リスト
- ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。
また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文 参考訳(メタデータ) (2024-10-17T14:44:35Z) - ARKitTrack: A New Diverse Dataset for Tracking Using Mobile RGB-D Data [75.73063721067608]
我々は,AppleのiPhoneおよびiPadに搭載されたコンシューマグレードのLiDARスキャナーによってキャプチャされた静的および動的シーンの両方を対象とした新しいRGB-D追跡データセットを提案する。
ARKitTrackには300のRGB-Dシーケンス、455のターゲット、229.7Kのビデオフレームが含まれている。
詳細な実験分析により,ARKitTrackデータセットがRGB-D追跡を著しく促進し,提案手法が芸術的状況と良好に比較できることが確認された。
論文 参考訳(メタデータ) (2023-03-24T09:51:13Z) - Digital Twin Tracking Dataset (DTTD): A New RGB+Depth 3D Dataset for
Longer-Range Object Tracking Applications [3.9776693020673677]
デジタルツイン(Digital twin)は、実際のオブジェクトをデジタルオブジェクトで拡張する問題である。
優れたデジタルツインシステムにおける重要なコンポーネントは、リアルタイムで正確な3Dオブジェクト追跡である。
この研究で、Digital Twin Tracking dataset(DTTD)と呼ばれる新しいRGB-Dデータセットを作成します。
論文 参考訳(メタデータ) (2023-02-12T20:06:07Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Is my Depth Ground-Truth Good Enough? HAMMER -- Highly Accurate
Multi-Modal Dataset for DEnse 3D Scene Regression [34.95597838973912]
HAMMERは屋内深度推定のための複数の一般的なセンサーからの深度推定を含むデータセットである。
我々は3次元スキャナーとアライメントレンダリングの助けを借りて、信頼性の高い地上真理深度マップを構築した。
一般的な深度推定器は、このデータと典型的な深度センサに基づいて訓練されている。
論文 参考訳(メタデータ) (2022-05-09T21:25:09Z) - HyperDet3D: Learning a Scene-conditioned 3D Object Detector [154.84798451437032]
本研究では3次元物体検出のためのシーン条件付き事前知識を探索するためにHyperDet3Dを提案する。
我々のHyperDet3Dは、ScanNetとSUN RGB-Dデータセットの3Dオブジェクト検出ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-12T07:57:58Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - EagerMOT: 3D Multi-Object Tracking via Sensor Fusion [68.8204255655161]
マルチオブジェクトトラッキング(MOT)により、移動ロボットは周囲の物体を3次元空間と時間で位置づけすることで、良好な動作計画とナビゲーションを行うことができる。
既存の方法は、深度センサー(例えばLiDAR)を使用して3D空間のターゲットを検出し追跡するが、信号の間隔が限られているため、検出範囲は限られている。
我々は,両方のセンサモダリティから利用可能な物体を全て統合し,シーンのダイナミックスを適切に解釈する簡易なトラッキング定式化であるeagermotを提案する。
論文 参考訳(メタデータ) (2021-04-29T22:30:29Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - An Overview Of 3D Object Detection [21.159668390764832]
マルチクラスオブジェクト認識を行うために,RGBデータとポイントクラウドデータの両方を用いるフレームワークを提案する。
最近リリースされたnuScenesデータセット - 大規模なデータセットには多くのデータフォーマットが含まれています - をトレーニングし、提案したアーキテクチャを評価します。
論文 参考訳(メタデータ) (2020-10-29T14:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。