論文の概要: A Benchmark Grocery Dataset of Realworld Point Clouds From Single View
- arxiv url: http://arxiv.org/abs/2402.07819v1
- Date: Mon, 12 Feb 2024 17:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:17:26.023725
- Title: A Benchmark Grocery Dataset of Realworld Point Clouds From Single View
- Title(参考訳): 単一視点からの実世界の点雲のベンチマークグルーシーデータセット
- Authors: Shivanand Venkanna Sheshappanavar, Tejas Anvekar, Shivanand Kundargi,
Yufan Wang and Chandra Kambhamettu
- Abstract要約: 微細な食料品の物体認識は、自動チェックアウト、店内ロボットナビゲーション、視覚障害者のための補助技術など幅広い用途において重要なコンピュータビジョン問題である。
既存の食料品のデータセットは主に2Dイメージである。これらのデータセットでトレーニングされたモデルは、通常の2Dグリッドからの学習機能に限られる。
モバイル3Dセンサーが利用可能であるにもかかわらず、現在、食料品用の大規模な3Dデータセット専用のリアルタイムベンチマークは存在しない。
- 参考スコア(独自算出の注目度): 12.885700941604357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained grocery object recognition is an important computer vision
problem with broad applications in automatic checkout, in-store robotic
navigation, and assistive technologies for the visually impaired. Existing
datasets on groceries are mainly 2D images. Models trained on these datasets
are limited to learning features from the regular 2D grids. While portable 3D
sensors such as Kinect were commonly available for mobile phones, sensors such
as LiDAR and TrueDepth, have recently been integrated into mobile phones.
Despite the availability of mobile 3D sensors, there are currently no dedicated
real-world large-scale benchmark 3D datasets for grocery. In addition, existing
3D datasets lack fine-grained grocery categories and have limited training
samples. Furthermore, collecting data by going around the object versus the
traditional photo capture makes data collection cumbersome. Thus, we introduce
a large-scale grocery dataset called 3DGrocery100. It constitutes 100 classes,
with a total of 87,898 3D point clouds created from 10,755 RGB-D single-view
images. We benchmark our dataset on six recent state-of-the-art 3D point cloud
classification models. Additionally, we also benchmark the dataset on few-shot
and continual learning point cloud classification tasks. Project Page:
https://bigdatavision.org/3DGrocery100/.
- Abstract(参考訳): 微細な食料品の物体認識は、自動チェックアウト、店内ロボットナビゲーション、視覚障害者のための補助技術など幅広い用途において重要なコンピュータビジョン問題である。
既存の食料品のデータセットは主に2D画像である。
これらのデータセットでトレーニングされたモデルは、通常の2Dグリッドからの学習機能に限られる。
Kinectのようなポータブルな3Dセンサーは携帯電話で一般的に利用されていたが、LiDARやTrueDepthのようなセンサーは近年携帯電話に統合されている。
モバイルの3Dセンサーが利用できるが、今のところ、食料品用の大規模な3Dデータセットは存在しない。
さらに、既存の3Dデータセットには詳細な食料品カテゴリがなく、限られたトレーニングサンプルがある。
さらに、オブジェクトと従来の写真キャプチャーでデータを収集することは、データの収集を煩雑にする。
そこで,我々は3dgrocery100と呼ばれる大規模食料品データセットを紹介する。
100のクラスを構成し、合計87,898個の3Dポイントクラウドが10,755枚のRGB-D画像から作成されている。
最近の6つの最先端の3Dポイントクラウド分類モデルにデータセットをベンチマークする。
さらに,マイナショットおよび継続的なラーニングポイントクラウド分類タスクでデータセットをベンチマークする。
プロジェクトページ: https://bigdatavision.org/3dgrocery100/
関連論文リスト
- UniDet3D: Multi-dataset Indoor 3D Object Detection [4.718582862677851]
簡単な3Dオブジェクト検出モデルです
屋内データセットの混合で訓練され、様々な屋内環境で働くことができる。
論文 参考訳(メタデータ) (2024-09-06T12:40:19Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - Digital Twin Tracking Dataset (DTTD): A New RGB+Depth 3D Dataset for
Longer-Range Object Tracking Applications [3.9776693020673677]
デジタルツイン(Digital twin)は、実際のオブジェクトをデジタルオブジェクトで拡張する問題である。
優れたデジタルツインシステムにおける重要なコンポーネントは、リアルタイムで正確な3Dオブジェクト追跡である。
この研究で、Digital Twin Tracking dataset(DTTD)と呼ばれる新しいRGB-Dデータセットを作成します。
論文 参考訳(メタデータ) (2023-02-12T20:06:07Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild [32.05421669957098]
大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。
我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。
より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:56:22Z) - SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point
Clouds [52.624157840253204]
センサットウルバン(SensatUrban)は、イギリスの3都市から収集された7.6km2の30億点近くからなる、都市規模のUAV測光点クラウドデータセットである。
データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。
論文 参考訳(メタデータ) (2022-01-12T14:48:11Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - An Overview Of 3D Object Detection [21.159668390764832]
マルチクラスオブジェクト認識を行うために,RGBデータとポイントクラウドデータの両方を用いるフレームワークを提案する。
最近リリースされたnuScenesデータセット - 大規模なデータセットには多くのデータフォーマットが含まれています - をトレーニングし、提案したアーキテクチャを評価します。
論文 参考訳(メタデータ) (2020-10-29T14:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。