論文の概要: Point Virtual Transformer
- arxiv url: http://arxiv.org/abs/2602.06406v1
- Date: Wed, 04 Feb 2026 23:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.250576
- Title: Point Virtual Transformer
- Title(参考訳): ポイント仮想トランス
- Authors: Veerain Sood, Bnalin, Gaurav Pandey,
- Abstract要約: LiDARベースの3Dオブジェクト検出器は、遠距離の物体を検出するのに苦労することが多い。
変換器をベースとした3Dオブジェクト検出フレームワークであるPoint Virtual Transformer (PointViT) について述べる。
このフレームワークは、初期の点レベル融合からBEVベースのゲート融合まで、複数の融合戦略を調べ、精度と効率の観点からそれらのトレードオフを分析する。
- 参考スコア(独自算出の注目度): 3.8019970256582094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based 3D object detectors often struggle to detect far-field objects due to the sparsity of point clouds at long ranges, which limits the availability of reliable geometric cues. To address this, prior approaches augment LiDAR data with depth-completed virtual points derived from RGB images; however, directly incorporating all virtual points leads to increased computational cost and introduces challenges in effectively fusing real and virtual information. We present Point Virtual Transformer (PointViT), a transformer-based 3D object detection framework that jointly reasons over raw LiDAR points and selectively sampled virtual points. The framework examines multiple fusion strategies, ranging from early point-level fusion to BEV-based gated fusion, and analyses their trade-offs in terms of accuracy and efficiency. The fused point cloud is voxelized and encoded using sparse convolutions to form a BEV representation, from which a compact set of high-confidence object queries is initialised and refined through a transformer-based context aggregation module. Experiments on the KITTI benchmark report 91.16% 3D AP, 95.94% BEV AP, and 99.36% AP on the KITTI 2D detection benchmark for the Car class.
- Abstract(参考訳): LiDARをベースとした3Dオブジェクト検出器は、遠方界の物体を検出するのに苦労することが多い。
これを解決するために,従来のアプローチでは,RGB画像から派生した深度完備仮想点を用いてLiDARデータを拡張していたが,全ての仮想点を直接組み込むことで計算コストが増大し,実情報や仮想情報を効果的に融合する上での課題がもたらされた。
変換器をベースとした3Dオブジェクト検出フレームワークであるPoint Virtual Transformer (PointViT) について述べる。
このフレームワークは、初期の点レベル融合からBEVベースのゲート融合まで、複数の融合戦略を調べ、精度と効率の観点からそれらのトレードオフを分析する。
高信頼度オブジェクトクエリのコンパクトなセットを初期化し、トランスフォーマーベースのコンテキストアグリゲーションモジュールを介して洗練する。
KITTIのベンチマークでは、91.16%の3D AP、95.94%のBEV AP、99.36%のAPがKITTIの2D検出ベンチマークで報告されている。
関連論文リスト
- TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder [66.22997415145467]
本稿では,スパース領域における検出機能を改善する共同補完・検出フレームワークを提案する。
具体的には,トランスブリッジ(TransBridge)を提案する。トランスブリッジ(TransBridge)はトランスフォーマーをベースとした新しいアップサンプリングブロックである。
その結果,本フレームワークは,各手法の平均精度(mAP)が0.7から1.5の範囲で,エンドツーエンドの3Dオブジェクト検出を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2025-12-12T00:08:03Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection [36.04323550267339]
点雲のための3Dオブジェクト検出器は、しばしば、スパースポイントをグリッドのようなボクセルや柱にエンコードするために、プールベースのPointNetに依存する。
本稿では,3次元検出のための変圧器を用いたポイント・ツー・ボクセルアーキテクチャであるPVTransformerを提案する。
論文 参考訳(メタデータ) (2024-05-05T04:44:41Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。