論文の概要: FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels
- arxiv url: http://arxiv.org/abs/2308.03755v1
- Date: Mon, 7 Aug 2023 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 12:36:51.342350
- Title: FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels
- Title(参考訳): FSD V2:仮想ボクセルによる完全スパース3次元物体検出の改善
- Authors: Lue Fan, Feng Wang, Naiyan Wang, Zhaoxiang Zhang
- Abstract要約: FSDv2は、手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを排除しつつ、以前のFSDv1を単純化することを目的とした進化である。
仮想ボクセルエンコーダ,仮想ボクセルミキサー,仮想ボクセル割り当て戦略など,仮想ボクセル概念を補完するコンポーネント群を開発した。
- 参考スコア(独自算出の注目度): 57.05834683261658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based fully sparse architecture has garnered increasing attention.
FSDv1 stands out as a representative work, achieving impressive efficacy and
efficiency, albeit with intricate structures and handcrafted designs. In this
paper, we present FSDv2, an evolution that aims to simplify the previous FSDv1
while eliminating the inductive bias introduced by its handcrafted
instance-level representation, thus promoting better general applicability. To
this end, we introduce the concept of \textbf{virtual voxels}, which takes over
the clustering-based instance segmentation in FSDv1. Virtual voxels not only
address the notorious issue of the Center Feature Missing problem in fully
sparse detectors but also endow the framework with a more elegant and
streamlined approach. Consequently, we develop a suite of components to
complement the virtual voxel concept, including a virtual voxel encoder, a
virtual voxel mixer, and a virtual voxel assignment strategy. Through empirical
validation, we demonstrate that the virtual voxel mechanism is functionally
similar to the handcrafted clustering in FSDv1 while being more general. We
conduct experiments on three large-scale datasets: Waymo Open Dataset,
Argoverse 2 dataset, and nuScenes dataset. Our results showcase
state-of-the-art performance on all three datasets, highlighting the
superiority of FSDv2 in long-range scenarios and its general applicability to
achieve competitive performance across diverse scenarios. Moreover, we provide
comprehensive experimental analysis to elucidate the workings of FSDv2. To
foster reproducibility and further research, we have open-sourced FSDv2 at
https://github.com/tusen-ai/SST.
- Abstract(参考訳): LiDARベースの完全なスパースアーキテクチャは注目を集めている。
fsdv1は、複雑な構造や手作りのデザインにもかかわらず、優れた効果と効率を実現している。
本稿では,手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを解消しつつ,従来のFSDv1の単純化を目的とした進化であるFSDv2を提案する。
この目的のために、fsdv1のクラスタリングベースのインスタンスセグメンテーションを継承する \textbf{virtual voxels} の概念を導入する。
仮想ボクセルは、完全にスパースな検出器におけるセンター特徴欠落の問題の悪名高い問題に対処するだけでなく、よりエレガントで合理なアプローチでフレームワークを支持した。
そこで我々は,仮想voxelエンコーダ,仮想voxelミキサー,仮想voxel割り当て戦略など,仮想voxel概念を補完するコンポーネントスイートを開発した。
実験により,仮想ボクセル機構はFSDv1における手作りクラスタリングと機能的に類似しており,より汎用的であることを示す。
waymo open dataset,argoverse 2 dataset,nuscenes datasetの3つの大規模データセットについて実験を行った。
この結果から, 長距離シナリオにおけるFSDv2の優位性と, 多様なシナリオにおける競合性能を実現するための汎用性を明らかにすることができた。
さらに,FSDv2の動作を解明するための総合的な実験分析を行った。
再現性とさらなる研究を促進するため,我々はFSDv2をhttps://github.com/tusen-ai/SSTでオープンソース化した。
関連論文リスト
- Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - XVO: Generalized Visual Odometry via Cross-Modal Self-Training [11.70220331540621]
XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。
単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。
そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
論文 参考訳(メタデータ) (2023-09-28T18:09:40Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Virtual Homogeneity Learning: Defending against Data Heterogeneity in
Federated Learning [34.97057620481504]
本稿では,VHL(Virtual homogeneity Learning)と呼ばれる新しい手法を提案する。
VHLは2つの条件を満たすために作られた仮想同質データセットで連合学習を行う。
実験により, VHLは, 収束速度と一般化性能を大幅に向上したフェデレーション学習を実現することを実証した。
論文 参考訳(メタデータ) (2022-06-06T10:02:21Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - AFDetV2: Rethinking the Necessity of the Second Stage for Object
Detection from Point Clouds [15.72821609622122]
我々は点雲からの3次元検出のための1段アンカーフリーネットワークを開発した。
我々は、バックボーンの自己校正畳み込みブロック、キーポイント補助監視、マルチタスクヘッドのIoU予測分岐を使用する。
私たちは2021年のリアルタイム3Dチャレンジで1位を獲得しました。
論文 参考訳(メタデータ) (2021-12-16T21:22:17Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。