Fugu-MT 論文翻訳(概要): Point Virtual Transformer

論文の概要: Point Virtual Transformer

arxiv url: http://arxiv.org/abs/2602.06406v1
Date: Wed, 04 Feb 2026 23:44:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.250576
Title: Point Virtual Transformer
Title（参考訳）: ポイント仮想トランス
Authors: Veerain Sood, Bnalin, Gaurav Pandey,
Abstract要約: LiDARベースの3Dオブジェクト検出器は、遠距離の物体を検出するのに苦労することが多い。変換器をベースとした3Dオブジェクト検出フレームワークであるPoint Virtual Transformer (PointViT) について述べる。このフレームワークは、初期の点レベル融合からBEVベースのゲート融合まで、複数の融合戦略を調べ、精度と効率の観点からそれらのトレードオフを分析する。
参考スコア（独自算出の注目度）: 3.8019970256582094
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LiDAR-based 3D object detectors often struggle to detect far-field objects due to the sparsity of point clouds at long ranges, which limits the availability of reliable geometric cues. To address this, prior approaches augment LiDAR data with depth-completed virtual points derived from RGB images; however, directly incorporating all virtual points leads to increased computational cost and introduces challenges in effectively fusing real and virtual information. We present Point Virtual Transformer (PointViT), a transformer-based 3D object detection framework that jointly reasons over raw LiDAR points and selectively sampled virtual points. The framework examines multiple fusion strategies, ranging from early point-level fusion to BEV-based gated fusion, and analyses their trade-offs in terms of accuracy and efficiency. The fused point cloud is voxelized and encoded using sparse convolutions to form a BEV representation, from which a compact set of high-confidence object queries is initialised and refined through a transformer-based context aggregation module. Experiments on the KITTI benchmark report 91.16% 3D AP, 95.94% BEV AP, and 99.36% AP on the KITTI 2D detection benchmark for the Car class.
Abstract（参考訳）: LiDARをベースとした3Dオブジェクト検出器は、遠方界の物体を検出するのに苦労することが多い。これを解決するために,従来のアプローチでは,RGB画像から派生した深度完備仮想点を用いてLiDARデータを拡張していたが,全ての仮想点を直接組み込むことで計算コストが増大し,実情報や仮想情報を効果的に融合する上での課題がもたらされた。変換器をベースとした3Dオブジェクト検出フレームワークであるPoint Virtual Transformer (PointViT) について述べる。このフレームワークは、初期の点レベル融合からBEVベースのゲート融合まで、複数の融合戦略を調べ、精度と効率の観点からそれらのトレードオフを分析する。高信頼度オブジェクトクエリのコンパクトなセットを初期化し、トランスフォーマーベースのコンテキストアグリゲーションモジュールを介して洗練する。 KITTIのベンチマークでは、91.16%の3D AP、95.94%のBEV AP、99.36%のAPがKITTIの2D検出ベンチマークで報告されている。

関連論文リスト

TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder [66.22997415145467]
本稿では,スパース領域における検出機能を改善する共同補完・検出フレームワークを提案する。具体的には,トランスブリッジ(TransBridge)を提案する。トランスブリッジ(TransBridge)はトランスフォーマーをベースとした新しいアップサンプリングブロックである。その結果,本フレームワークは,各手法の平均精度(mAP)が0.7から1.5の範囲で,エンドツーエンドの3Dオブジェクト検出を一貫して改善していることがわかった。
論文参考訳（メタデータ） (2025-12-12T00:08:03Z)
RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。 RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文参考訳（メタデータ） (2024-12-17T09:47:48Z)
PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection [36.04323550267339]
点雲のための3Dオブジェクト検出器は、しばしば、スパースポイントをグリッドのようなボクセルや柱にエンコードするために、プールベースのPointNetに依存する。本稿では,3次元検出のための変圧器を用いたポイント・ツー・ボクセルアーキテクチャであるPVTransformerを提案する。
論文参考訳（メタデータ） (2024-05-05T04:44:41Z)
FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision Transformer Fusion [8.168523242105763]
本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
論文参考訳（メタデータ） (2023-11-07T00:12:01Z)
V-DETR: DETR with Vertex Relative Position Encoding for 3D Object Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文参考訳（メタデータ） (2023-08-08T17:14:14Z)
OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文参考訳（メタデータ） (2023-06-02T17:59:48Z)
PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文参考訳（メタデータ） (2023-05-11T07:37:15Z)
SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文参考訳（メタデータ） (2022-01-06T08:54:47Z)
VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文参考訳（メタデータ） (2021-11-29T08:51:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。