論文の概要: FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels
- arxiv url: http://arxiv.org/abs/2308.03755v1
- Date: Mon, 7 Aug 2023 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 12:36:51.342350
- Title: FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels
- Title(参考訳): FSD V2:仮想ボクセルによる完全スパース3次元物体検出の改善
- Authors: Lue Fan, Feng Wang, Naiyan Wang, Zhaoxiang Zhang
- Abstract要約: FSDv2は、手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを排除しつつ、以前のFSDv1を単純化することを目的とした進化である。
仮想ボクセルエンコーダ,仮想ボクセルミキサー,仮想ボクセル割り当て戦略など,仮想ボクセル概念を補完するコンポーネント群を開発した。
- 参考スコア(独自算出の注目度): 57.05834683261658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based fully sparse architecture has garnered increasing attention.
FSDv1 stands out as a representative work, achieving impressive efficacy and
efficiency, albeit with intricate structures and handcrafted designs. In this
paper, we present FSDv2, an evolution that aims to simplify the previous FSDv1
while eliminating the inductive bias introduced by its handcrafted
instance-level representation, thus promoting better general applicability. To
this end, we introduce the concept of \textbf{virtual voxels}, which takes over
the clustering-based instance segmentation in FSDv1. Virtual voxels not only
address the notorious issue of the Center Feature Missing problem in fully
sparse detectors but also endow the framework with a more elegant and
streamlined approach. Consequently, we develop a suite of components to
complement the virtual voxel concept, including a virtual voxel encoder, a
virtual voxel mixer, and a virtual voxel assignment strategy. Through empirical
validation, we demonstrate that the virtual voxel mechanism is functionally
similar to the handcrafted clustering in FSDv1 while being more general. We
conduct experiments on three large-scale datasets: Waymo Open Dataset,
Argoverse 2 dataset, and nuScenes dataset. Our results showcase
state-of-the-art performance on all three datasets, highlighting the
superiority of FSDv2 in long-range scenarios and its general applicability to
achieve competitive performance across diverse scenarios. Moreover, we provide
comprehensive experimental analysis to elucidate the workings of FSDv2. To
foster reproducibility and further research, we have open-sourced FSDv2 at
https://github.com/tusen-ai/SST.
- Abstract(参考訳): LiDARベースの完全なスパースアーキテクチャは注目を集めている。
fsdv1は、複雑な構造や手作りのデザインにもかかわらず、優れた効果と効率を実現している。
本稿では,手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを解消しつつ,従来のFSDv1の単純化を目的とした進化であるFSDv2を提案する。
この目的のために、fsdv1のクラスタリングベースのインスタンスセグメンテーションを継承する \textbf{virtual voxels} の概念を導入する。
仮想ボクセルは、完全にスパースな検出器におけるセンター特徴欠落の問題の悪名高い問題に対処するだけでなく、よりエレガントで合理なアプローチでフレームワークを支持した。
そこで我々は,仮想voxelエンコーダ,仮想voxelミキサー,仮想voxel割り当て戦略など,仮想voxel概念を補完するコンポーネントスイートを開発した。
実験により,仮想ボクセル機構はFSDv1における手作りクラスタリングと機能的に類似しており,より汎用的であることを示す。
waymo open dataset,argoverse 2 dataset,nuscenes datasetの3つの大規模データセットについて実験を行った。
この結果から, 長距離シナリオにおけるFSDv2の優位性と, 多様なシナリオにおける競合性能を実現するための汎用性を明らかにすることができた。
さらに,FSDv2の動作を解明するための総合的な実験分析を行った。
再現性とさらなる研究を促進するため,我々はFSDv2をhttps://github.com/tusen-ai/SSTでオープンソース化した。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - All-in-One: Transferring Vision Foundation Models into Stereo Matching [13.781452399651887]
AIO-Stereoは、複数の異種VFMからの知識を柔軟に選択し、単一のステレオマッチングモデルに転送することができる。
AIO-Stereoは、複数のデータセットで最先端のパフォーマンスを達成し、ミドルベリーデータセットで1st$をランク付けしている。
論文 参考訳(メタデータ) (2024-12-13T06:59:17Z) - XVO: Generalized Visual Odometry via Cross-Modal Self-Training [11.70220331540621]
XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。
単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。
そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
論文 参考訳(メタデータ) (2023-09-28T18:09:40Z) - SimVPv2: Towards Simple yet Powerful Spatiotemporal Predictive Learning [61.419914155985886]
空間的・時間的モデリングにおけるUnetアーキテクチャの必要性を解消する合理化モデルであるSimVPv2を提案する。
SimVPv2はモデルアーキテクチャを単純化するだけでなく、性能と計算効率も改善する。
標準のMoving MNISTベンチマークでは、SimVPv2は、FLOPが少なく、トレーニング時間の半分、推論効率が60%速く、SimVPよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-11-22T08:01:33Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - AFDetV2: Rethinking the Necessity of the Second Stage for Object
Detection from Point Clouds [15.72821609622122]
我々は点雲からの3次元検出のための1段アンカーフリーネットワークを開発した。
我々は、バックボーンの自己校正畳み込みブロック、キーポイント補助監視、マルチタスクヘッドのIoU予測分岐を使用する。
私たちは2021年のリアルタイム3Dチャレンジで1位を獲得しました。
論文 参考訳(メタデータ) (2021-12-16T21:22:17Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。