Fugu-MT 論文翻訳(概要): FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

論文の概要: FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

arxiv url: http://arxiv.org/abs/2308.03755v1
Date: Mon, 7 Aug 2023 17:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 12:36:51.342350
Title: FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels
Title（参考訳）: FSD V2:仮想ボクセルによる完全スパース3次元物体検出の改善
Authors: Lue Fan, Feng Wang, Naiyan Wang, Zhaoxiang Zhang
Abstract要約: FSDv2は、手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを排除しつつ、以前のFSDv1を単純化することを目的とした進化である。仮想ボクセルエンコーダ,仮想ボクセルミキサー,仮想ボクセル割り当て戦略など,仮想ボクセル概念を補完するコンポーネント群を開発した。
参考スコア（独自算出の注目度）: 57.05834683261658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LiDAR-based fully sparse architecture has garnered increasing attention. FSDv1 stands out as a representative work, achieving impressive efficacy and efficiency, albeit with intricate structures and handcrafted designs. In this paper, we present FSDv2, an evolution that aims to simplify the previous FSDv1 while eliminating the inductive bias introduced by its handcrafted instance-level representation, thus promoting better general applicability. To this end, we introduce the concept of \textbf{virtual voxels}, which takes over the clustering-based instance segmentation in FSDv1. Virtual voxels not only address the notorious issue of the Center Feature Missing problem in fully sparse detectors but also endow the framework with a more elegant and streamlined approach. Consequently, we develop a suite of components to complement the virtual voxel concept, including a virtual voxel encoder, a virtual voxel mixer, and a virtual voxel assignment strategy. Through empirical validation, we demonstrate that the virtual voxel mechanism is functionally similar to the handcrafted clustering in FSDv1 while being more general. We conduct experiments on three large-scale datasets: Waymo Open Dataset, Argoverse 2 dataset, and nuScenes dataset. Our results showcase state-of-the-art performance on all three datasets, highlighting the superiority of FSDv2 in long-range scenarios and its general applicability to achieve competitive performance across diverse scenarios. Moreover, we provide comprehensive experimental analysis to elucidate the workings of FSDv2. To foster reproducibility and further research, we have open-sourced FSDv2 at https://github.com/tusen-ai/SST.
Abstract（参考訳）: LiDARベースの完全なスパースアーキテクチャは注目を集めている。 fsdv1は、複雑な構造や手作りのデザインにもかかわらず、優れた効果と効率を実現している。本稿では,手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを解消しつつ,従来のFSDv1の単純化を目的とした進化であるFSDv2を提案する。この目的のために、fsdv1のクラスタリングベースのインスタンスセグメンテーションを継承する \textbf{virtual voxels} の概念を導入する。仮想ボクセルは、完全にスパースな検出器におけるセンター特徴欠落の問題の悪名高い問題に対処するだけでなく、よりエレガントで合理なアプローチでフレームワークを支持した。そこで我々は,仮想voxelエンコーダ,仮想voxelミキサー,仮想voxel割り当て戦略など,仮想voxel概念を補完するコンポーネントスイートを開発した。実験により,仮想ボクセル機構はFSDv1における手作りクラスタリングと機能的に類似しており,より汎用的であることを示す。 waymo open dataset,argoverse 2 dataset,nuscenes datasetの3つの大規模データセットについて実験を行った。この結果から, 長距離シナリオにおけるFSDv2の優位性と, 多様なシナリオにおける競合性能を実現するための汎用性を明らかにすることができた。さらに,FSDv2の動作を解明するための総合的な実験分析を行った。再現性とさらなる研究を促進するため,我々はFSDv2をhttps://github.com/tusen-ai/SSTでオープンソース化した。

関連論文リスト

DSFormer: A Dual-Scale Cross-Learning Transformer for Visual Place Recognition [16.386674597850778]
本稿では,TransformerベースのクロスラーニングモジュールであるDual-Scale-Former(DSFormer)と,革新的なブロッククラスタリング戦略を統合する新しいフレームワークを提案する。提案手法は,ほとんどのベンチマークデータセットにまたがって最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-24T14:29:30Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
All-in-One: Transferring Vision Foundation Models into Stereo Matching [13.781452399651887]
AIO-Stereoは、複数の異種VFMからの知識を柔軟に選択し、単一のステレオマッチングモデルに転送することができる。 AIO-Stereoは、複数のデータセットで最先端のパフォーマンスを達成し、ミドルベリーデータセットで1st$をランク付けしている。
論文参考訳（メタデータ） (2024-12-13T06:59:17Z)
Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。 Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文参考訳（メタデータ） (2024-06-27T02:32:46Z)
Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。 ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文参考訳（メタデータ） (2024-04-15T05:44:03Z)
XVO: Generalized Visual Odometry via Cross-Modal Self-Training [11.70220331540621]
XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
論文参考訳（メタデータ） (2023-09-28T18:09:40Z)
GEM: Boost Simple Network for Glass Surface Segmentation via Vision Foundation Models [7.423981028880871]
ガラスの表面検出は、その透明さと反射特性に固有の曖昧さのために難しい課題である。我々は、既存の2つのビジョン基盤モデル(VFM)の能力をフル活用して、これらの問題を解決することを提案する。我々のGEMは、これらの2つのVFMの助けを借りて、新しい最先端の性能を確立し、2.1%のIoU改善でGlassSemNetを抜いた。
論文参考訳（メタデータ） (2023-07-22T08:37:23Z)
SimVPv2: Towards Simple yet Powerful Spatiotemporal Predictive Learning [61.419914155985886]
空間的・時間的モデリングにおけるUnetアーキテクチャの必要性を解消する合理化モデルであるSimVPv2を提案する。 SimVPv2はモデルアーキテクチャを単純化するだけでなく、性能と計算効率も改善する。標準のMoving MNISTベンチマークでは、SimVPv2は、FLOPが少なく、トレーニング時間の半分、推論効率が60%速く、SimVPよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-11-22T08:01:33Z)
Virtual Homogeneity Learning: Defending against Data Heterogeneity in Federated Learning [34.97057620481504]
本稿では,VHL(Virtual homogeneity Learning)と呼ばれる新しい手法を提案する。 VHLは2つの条件を満たすために作られた仮想同質データセットで連合学習を行う。実験により, VHLは, 収束速度と一般化性能を大幅に向上したフェデレーション学習を実現することを実証した。
論文参考訳（メタデータ） (2022-06-06T10:02:21Z)
V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。 V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文参考訳（メタデータ） (2022-03-20T20:18:25Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
AFDetV2: Rethinking the Necessity of the Second Stage for Object Detection from Point Clouds [15.72821609622122]
我々は点雲からの3次元検出のための1段アンカーフリーネットワークを開発した。我々は、バックボーンの自己校正畳み込みブロック、キーポイント補助監視、マルチタスクヘッドのIoU予測分岐を使用する。私たちは2021年のリアルタイム3Dチャレンジで1位を獲得しました。
論文参考訳（メタデータ） (2021-12-16T21:22:17Z)
Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T14:50:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。