Fugu-MT 論文翻訳(概要): VRSO: Visual-Centric Reconstruction for Static Object Annotation

論文の概要: VRSO: Visual-Centric Reconstruction for Static Object Annotation

arxiv url: http://arxiv.org/abs/2403.15026v2
Date: Sat, 3 Aug 2024 03:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 23:16:45.886533
Title: VRSO: Visual-Centric Reconstruction for Static Object Annotation
Title（参考訳）: VRSO:静的オブジェクトアノテーションのための視覚中心再構成
Authors: Chenyao Yu, Yingfeng Cai, Jiaxin Zhang, Hui Kong, Wei Sui, Cong Yang,
Abstract要約: 本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。 VRSOは低コスト、高効率、高品質である。カメライメージのみを入力として、3D空間の静的オブジェクトを復元する。
参考スコア（独自算出の注目度）: 21.70421057949981
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a part of the perception results of intelligent driving systems, static object detection (SOD) in 3D space provides crucial cues for driving environment understanding. With the rapid deployment of deep neural networks for SOD tasks, the demand for high-quality training samples soars. The traditional, also reliable, way is manual labelling over the dense LiDAR point clouds and reference images. Though most public driving datasets adopt this strategy to provide SOD ground truth (GT), it is still expensive and time-consuming in practice. This paper introduces VRSO, a visual-centric approach for static object annotation. Experiments on the Waymo Open Dataset show that the mean reprojection error from VRSO annotation is only 2.6 pixels, around four times lower than the Waymo Open Dataset labels (10.6 pixels). VRSO is distinguished in low cost, high efficiency, and high quality: (1) It recovers static objects in 3D space with only camera images as input, and (2) manual annotation is barely involved since GT for SOD tasks is generated based on an automatic reconstruction and annotation pipeline.
Abstract（参考訳）: 知的運転システムの認識結果の一部として、3次元空間における静的物体検出(SOD)は、環境理解を駆動するための重要な手がかりとなる。 SODタスクのためのディープニューラルネットワークの迅速なデプロイにより、高品質なトレーニングサンプルの需要が急増した。従来の信頼性の高い方法では、高密度のLiDAR点雲と参照イメージを手動でラベル付けする。ほとんどの公共運転データセットは、SODの真実(GT)を提供するためにこの戦略を採用しているが、実際には高価で時間がかかる。本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。 Waymo Open Datasetの実験では、VRSOアノテーションからの平均再射誤差は2.6ピクセルであり、Waymo Open Datasetラベル(10.6ピクセル)の約4倍低い。 VRSOは,(1)カメラ画像のみを入力として3次元空間の静的物体を復元し,(2)手動アノテーションは,自動再構成とアノテーションパイプラインに基づいてSODタスクのGTを生成するため,ほとんど関与しない。

関連論文リスト

VESPA: Towards un(Human)supervised Open-World Pointcloud Labeling for Autonomous Driving [1.623951368574041]
本稿では,LiDARの幾何学的精度をカメラ画像のセマンティック・リッチネスと融合させるマルチモーダル・オートラベリング・パイプラインであるVESPAを紹介する。 VESPAは、新しいカテゴリの発見をサポートし、地味なアノテーションやHDマップを必要とせず、高品質な3D擬似ラベルを生成する。 Nuscenesデータセットでは、VESPAはオブジェクト発見に52.95%、マルチクラスオブジェクト検出に46.54%のAPを達成している。
論文参考訳（メタデータ） (2025-07-27T19:39:29Z)
EGSRAL: An Enhanced 3D Gaussian Splatting based Renderer with Automated Labeling for Large-Scale Driving Scene [19.20846992699852]
EGSRALは3D GSベースの手法で、追加のアノテーションを使わずに画像のトレーニングにのみ依存する。 EGSRALは、動的オブジェクトと静的バックグラウンドの両方をモデル化する3D GSの機能を強化する。また,大規模な複雑なシーンをレンダリングする際の視点問題に対処するために,バニラ3D GSのグルーピング戦略を提案する。
論文参考訳（メタデータ） (2024-12-20T04:21:54Z)
Street Gaussians without 3D Object Tracker [86.62329193275916]
既存の方法は、標準空間における動的オブジェクトを再構築するために、オブジェクトポーズの労働集約的な手動ラベリングに依存している。本研究では,3次元オブジェクト融合戦略における2次元ディープトラッカーの関連性を利用して,安定なオブジェクト追跡モジュールを提案する。我々は、軌道誤差を自律的に補正し、見逃した検出を回復する暗黙の特徴空間に、モーションラーニング戦略を導入することで、避けられないトラッキングエラーに対処する。
論文参考訳（メタデータ） (2024-12-07T05:49:42Z)
Vision-Language Guidance for LiDAR-based Unsupervised 3D Object Detection [16.09503890891102]
我々は,LiDAR点雲のみで動作する教師なし3次元検出手法を提案する。我々は、クラスタリング、トラッキング、ボックステキスト、ラベルリファインメントなど、LiDARポイントクラウドの固有のCLI時間知識を活用している。提案手法はオープンデータセット上での最先端の非教師なし3Dオブジェクト検出器よりも優れている。
論文参考訳（メタデータ） (2024-08-07T14:14:53Z)
Neural Rendering based Urban Scene Reconstruction for Autonomous Driving [8.007494499012624]
ニューラルな暗黙表面と放射場を組み合わせたフレームワークを用いたマルチモーダル3次元シーン再構成を提案する。 Dense 3Dリコンストラクションは、自動アノテーションバリデーションを含む自動走行に多くの応用がある。我々は,挑戦的な自動車シーンの質的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-02-09T23:20:23Z)
Weakly Supervised 3D Object Detection with Multi-Stage Generalization [62.96670547848691]
擬似ラベル生成と多段階一般化を含むBA$2$-Detを導入する。一般化の3つの段階、完全から部分へ、静的から動的へ、そして遠い距離へ進む。 BA$2$-Detは、KITTIデータセットの20%の相対的な改善を達成できる。
論文参考訳（メタデータ） (2023-06-08T17:58:57Z)
View-to-Label: Multi-View Consistency for Self-Supervised 3D Object Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。 KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文参考訳（メタデータ） (2023-05-29T09:30:39Z)
Hierarchical Supervision and Shuffle Data Augmentation for 3D Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-04-04T02:09:32Z)
ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文参考訳（メタデータ） (2022-12-12T13:10:19Z)
BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文参考訳（メタデータ） (2022-12-12T08:15:03Z)
Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文参考訳（メタデータ） (2021-04-23T17:59:28Z)
SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文参考訳（メタデータ） (2019-12-26T08:48:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。