論文の概要: VCVW-3D: A Virtual Construction Vehicles and Workers Dataset with 3D
Annotations
- arxiv url: http://arxiv.org/abs/2305.17927v1
- Date: Mon, 29 May 2023 07:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 16:01:13.938554
- Title: VCVW-3D: A Virtual Construction Vehicles and Workers Dataset with 3D
Annotations
- Title(参考訳): VCVW-3D: 3Dアノテーション付き仮想建設車両と労働者データセット
- Authors: Yuexiong Ding, Xiaowei Luo
- Abstract要約: 本稿では,VCVW-3Dという3Dアノテーションを用いた仮想データセットの作成とリリースを行う。
このデータセットの特徴は、マルチシーン、マルチカテゴリ、マルチビューポイント、マルチアノテーション、両眼視である。
典型的な2Dおよびモノラルな3Dオブジェクト検出モデルは、VCVW-3Dデータセットでトレーニングされ、評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, object detection applications in construction are almost based on
pure 2D data (both image and annotation are 2D-based), resulting in the
developed artificial intelligence (AI) applications only applicable to some
scenarios that only require 2D information. However, most advanced applications
usually require AI agents to perceive 3D spatial information, which limits the
further development of the current computer vision (CV) in construction. The
lack of 3D annotated datasets for construction object detection worsens the
situation. Therefore, this study creates and releases a virtual dataset with 3D
annotations named VCVW-3D, which covers 15 construction scenes and involves ten
categories of construction vehicles and workers. The VCVW-3D dataset is
characterized by multi-scene, multi-category, multi-randomness,
multi-viewpoint, multi-annotation, and binocular vision. Several typical 2D and
monocular 3D object detection models are then trained and evaluated on the
VCVW-3D dataset to provide a benchmark for subsequent research. The VCVW-3D is
expected to bring considerable economic benefits and practical significance by
reducing the costs of data construction, prototype development, and exploration
of space-awareness applications, thus promoting the development of CV in
construction, especially those of 3D applications.
- Abstract(参考訳): 現在、建設中のオブジェクト検出アプリケーションは、ほぼ純粋な2Dデータ(画像とアノテーションはどちらも2Dベース)に基づいており、2D情報のみを必要とするいくつかのシナリオにしか適用できない。
しかし、ほとんどの先進的なアプリケーションは、通常AIエージェントが3D空間情報を知覚する必要があるため、建設における現在のコンピュータビジョン(CV)のさらなる発展が制限される。
構築オブジェクト検出のための3Dアノテートデータセットの欠如により、状況は悪化する。
そこで本研究では,VCVW-3Dという3Dアノテーションを用いた仮想データセットを作成し,公開する。
VCVW-3Dデータセットの特徴は、マルチシーン、マルチカテゴリ、マルチランダムネス、マルチビューポイント、マルチアノテーション、両眼視である。
典型的な2Dおよびモノラルな3Dオブジェクト検出モデルが訓練され、VCVW-3Dデータセットで評価され、その後の研究のベンチマークが提供される。
VCVW-3Dは、データ構築のコストを削減し、プロトタイプ開発と宇宙認識アプリケーションの探索を行い、特に3DアプリケーションにおけるCVの開発を促進することで、経済的利益と実用上の意義をもたらすことが期待されている。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。