論文の概要: VRSO: Visual-Centric Reconstruction for Static Object Annotation
- arxiv url: http://arxiv.org/abs/2403.15026v1
- Date: Fri, 22 Mar 2024 08:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:18:01.683681
- Title: VRSO: Visual-Centric Reconstruction for Static Object Annotation
- Title(参考訳): VRSO:静的オブジェクトアノテーションのための視覚中心再構成
- Authors: Chenyao Yu, Yingfeng Cai, Jiaxin Zhang, Hui Kong, Wei Sui, Cong Yang,
- Abstract要約: 本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。
カメライメージのみを入力として、3D空間の静的オブジェクトを復元する。
VRSOは低コスト、高効率、高品質である。
- 参考スコア(独自算出の注目度): 21.70421057949981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a part of the perception results of intelligent driving systems, static object detection (SOD) in 3D space provides crucial cues for driving environment understanding. With the rapid deployment of deep neural networks for SOD tasks, the demand for high-quality training samples soars. The traditional, also reliable, way is manual labeling over the dense LiDAR point clouds and reference images. Though most public driving datasets adopt this strategy to provide SOD ground truth (GT), it is still expensive (requires LiDAR scanners) and low-efficient (time-consuming and unscalable) in practice. This paper introduces VRSO, a visual-centric approach for static object annotation. VRSO is distinguished in low cost, high efficiency, and high quality: (1) It recovers static objects in 3D space with only camera images as input, and (2) manual labeling is barely involved since GT for SOD tasks is generated based on an automatic reconstruction and annotation pipeline. (3) Experiments on the Waymo Open Dataset show that the mean reprojection error from VRSO annotation is only 2.6 pixels, around four times lower than the Waymo labeling (10.6 pixels). Source code is available at: https://github.com/CaiYingFeng/VRSO.
- Abstract(参考訳): 知的運転システムの認識結果の一部として、3次元空間における静的物体検出(SOD)は、環境理解を駆動するための重要な手がかりとなる。
SODタスクのためのディープニューラルネットワークの迅速なデプロイにより、高品質なトレーニングサンプルの需要が急増した。
従来の信頼性の高い方法では、高密度のLiDAR点雲と参照イメージを手動でラベル付けする。
ほとんどの公共の運転データセットは、SODの真実(GT)を提供するためにこの戦略を採用しているが、実際には高価(LiDARスキャナーが必要)であり、低効率(時間の浪費とスケーリングが不可能)である。
本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。
VRSOは,(1)カメラ画像のみを入力として3次元空間の静的物体を復元し,(2)手動ラベリングは,自動再構成およびアノテーションパイプラインに基づいてSODタスクのGTを生成するため,ほとんど関与しない。
(3) Waymo Open Datasetの実験では、VRSOアノテーションからの平均再射誤差はわずか2.6ピクセルであり、Waymoラベルの約4倍(10.6ピクセル)である。
ソースコードは、https://github.com/CaiYingFeng/VRSOで入手できる。
関連論文リスト
- EGSRAL: An Enhanced 3D Gaussian Splatting based Renderer with Automated Labeling for Large-Scale Driving Scene [19.20846992699852]
EGSRALは3D GSベースの手法で、追加のアノテーションを使わずに画像のトレーニングにのみ依存する。
EGSRALは、動的オブジェクトと静的バックグラウンドの両方をモデル化する3D GSの機能を強化する。
また,大規模な複雑なシーンをレンダリングする際の視点問題に対処するために,バニラ3D GSのグルーピング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-20T04:21:54Z) - Street Gaussians without 3D Object Tracker [86.62329193275916]
既存の手法では、オブジェクトポーズの労働集約的な手動ラベリングを使用して、標準的な空間内で動的オブジェクトを再構築し、レンダリング中にこれらのポーズに基づいてそれらを動かす。
本研究では,3次元オブジェクト融合戦略における2次元ディープトラッカーの関連性を利用して,安定なオブジェクト追跡モジュールを提案する。
我々は、軌道誤差を自律的に補正し、見逃した検出を回復する暗黙の特徴空間に、モーションラーニング戦略を導入することで、避けられないトラッキングエラーに対処する。
論文 参考訳(メタデータ) (2024-12-07T05:49:42Z) - Neural Rendering based Urban Scene Reconstruction for Autonomous Driving [8.007494499012624]
ニューラルな暗黙表面と放射場を組み合わせたフレームワークを用いたマルチモーダル3次元シーン再構成を提案する。
Dense 3Dリコンストラクションは、自動アノテーションバリデーションを含む自動走行に多くの応用がある。
我々は,挑戦的な自動車シーンの質的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-02-09T23:20:23Z) - Weakly Supervised 3D Object Detection with Multi-Stage Generalization [62.96670547848691]
擬似ラベル生成と多段階一般化を含むBA$2$-Detを導入する。
一般化の3つの段階、完全から部分へ、静的から動的へ、そして遠い距離へ進む。
BA$2$-Detは、KITTIデータセットの20%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2023-06-08T17:58:57Z) - Hierarchical Supervision and Shuffle Data Augmentation for 3D
Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。
自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。
本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T02:09:32Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。