論文の概要: VRSO: Visual-Centric Reconstruction for Static Object Annotation
- arxiv url: http://arxiv.org/abs/2403.15026v2
- Date: Sat, 3 Aug 2024 03:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:16:45.886533
- Title: VRSO: Visual-Centric Reconstruction for Static Object Annotation
- Title(参考訳): VRSO:静的オブジェクトアノテーションのための視覚中心再構成
- Authors: Chenyao Yu, Yingfeng Cai, Jiaxin Zhang, Hui Kong, Wei Sui, Cong Yang,
- Abstract要約: 本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。
VRSOは低コスト、高効率、高品質である。
カメライメージのみを入力として、3D空間の静的オブジェクトを復元する。
- 参考スコア(独自算出の注目度): 21.70421057949981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a part of the perception results of intelligent driving systems, static object detection (SOD) in 3D space provides crucial cues for driving environment understanding. With the rapid deployment of deep neural networks for SOD tasks, the demand for high-quality training samples soars. The traditional, also reliable, way is manual labelling over the dense LiDAR point clouds and reference images. Though most public driving datasets adopt this strategy to provide SOD ground truth (GT), it is still expensive and time-consuming in practice. This paper introduces VRSO, a visual-centric approach for static object annotation. Experiments on the Waymo Open Dataset show that the mean reprojection error from VRSO annotation is only 2.6 pixels, around four times lower than the Waymo Open Dataset labels (10.6 pixels). VRSO is distinguished in low cost, high efficiency, and high quality: (1) It recovers static objects in 3D space with only camera images as input, and (2) manual annotation is barely involved since GT for SOD tasks is generated based on an automatic reconstruction and annotation pipeline.
- Abstract(参考訳): 知的運転システムの認識結果の一部として、3次元空間における静的物体検出(SOD)は、環境理解を駆動するための重要な手がかりとなる。
SODタスクのためのディープニューラルネットワークの迅速なデプロイにより、高品質なトレーニングサンプルの需要が急増した。
従来の信頼性の高い方法では、高密度のLiDAR点雲と参照イメージを手動でラベル付けする。
ほとんどの公共運転データセットは、SODの真実(GT)を提供するためにこの戦略を採用しているが、実際には高価で時間がかかる。
本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。
Waymo Open Datasetの実験では、VRSOアノテーションからの平均再射誤差は2.6ピクセルであり、Waymo Open Datasetラベル(10.6ピクセル)の約4倍低い。
VRSOは,(1)カメラ画像のみを入力として3次元空間の静的物体を復元し,(2)手動アノテーションは,自動再構成とアノテーションパイプラインに基づいてSODタスクのGTを生成するため,ほとんど関与しない。
関連論文リスト
- LISO: Lidar-only Self-Supervised 3D Object Detection [25.420879730860936]
本稿では,SOTAライダーオブジェクト検出ネットワークを学習するための新しい自己教師手法を提案する。
これはライダー点雲のラベルなし列にのみ作用する。
ボンネット下のSOTA自監督ライダーシーンフローネットワークを利用して、疑似地上真実を生成し、追跡し、反復的に洗練する。
論文 参考訳(メタデータ) (2024-03-11T18:02:52Z) - Neural Rendering based Urban Scene Reconstruction for Autonomous Driving [8.007494499012624]
ニューラルな暗黙表面と放射場を組み合わせたフレームワークを用いたマルチモーダル3次元シーン再構成を提案する。
Dense 3Dリコンストラクションは、自動アノテーションバリデーションを含む自動走行に多くの応用がある。
我々は,挑戦的な自動車シーンの質的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-02-09T23:20:23Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - Hierarchical Supervision and Shuffle Data Augmentation for 3D
Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。
自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。
本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T02:09:32Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。