論文の概要: HeightFormer: Learning Height Prediction in Voxel Features for Roadside Vision Centric 3D Object Detection via Transformer
- arxiv url: http://arxiv.org/abs/2503.10777v1
- Date: Thu, 13 Mar 2025 18:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:41.047850
- Title: HeightFormer: Learning Height Prediction in Voxel Features for Roadside Vision Centric 3D Object Detection via Transformer
- Title(参考訳): HeightFormer:トランスを用いた道路側視覚3次元物体検出のためのボクセル特徴の学習高さ予測
- Authors: Zhang Zhang, Chao Sun, Chao Yue, Da Wen, Yujie Chen, Tianze Wang, Jianghao Leng,
- Abstract要約: The framework learning height prediction in voxel features via transformer, called HeightFormer。
ボクセルの特徴を局所的な高さ列に分類し、注意機構を利用して高さ分布予測を行う。
提案手法は,DAIR-V2X-I と Rope3D の2つの大規模道路側ベンチマークに適用できる。
- 参考スコア(独自算出の注目度): 8.975640955554555
- License:
- Abstract: Roadside vision centric 3D object detection has received increasing attention in recent years. It expands the perception range of autonomous vehicles, enhances the road safety. Previous methods focused on predicting per-pixel height rather than depth, making significant gains in roadside visual perception. While it is limited by the perspective property of near-large and far-small on image features, making it difficult for network to understand real dimension of objects in the 3D world. BEV features and voxel features present the real distribution of objects in 3D world compared to the image features. However, BEV features tend to lose details due to the lack of explicit height information, and voxel features are computationally expensive. Inspired by this insight, an efficient framework learning height prediction in voxel features via transformer is proposed, dubbed HeightFormer. It groups the voxel features into local height sequences, and utilize attention mechanism to obtain height distribution prediction. Subsequently, the local height sequences are reassembled to generate accurate 3D features. The proposed method is applied to two large-scale roadside benchmarks, DAIR-V2X-I and Rope3D. Extensive experiments are performed and the HeightFormer outperforms the state-of-the-art methods in roadside vision centric 3D object detection task.
- Abstract(参考訳): 近年,道路の視界中心の3次元物体検出が注目されている。
自動運転車の認識範囲を広げ、道路の安全性を高める。
従来は深度ではなく画素ごとの高さの予測に焦点が当てられていたため、道路沿いの視覚的知覚は著しく向上した。
画像特徴量において、近距離および極小の視点特性に制限されているため、ネットワークが3次元世界の物体の実次元を理解することは困難である。
BEV機能とボクセル機能は、画像機能と比較して3D世界のオブジェクトの実際の分布を示す。
しかしながら、BEVの機能は、明示的な高さ情報がないために詳細を欠く傾向にあり、ボクセルの機能は計算的に高価である。
この知見に触発されて,HightFormerと呼ばれるトランスフォーマーによるボクセル機能の効率的なフレームワーク学習高さ予測が提案されている。
ボクセルの特徴を局所的な高さ列に分類し、注意機構を利用して高さ分布予測を行う。
その後、局所的な高さシーケンスを再組み立てして正確な3D特徴を生成する。
提案手法は,DAIR-V2X-I と Rope3D の2つの大規模道路側ベンチマークに適用できる。
広汎な実験が行われ、HeightFormerは、道路側視覚中心の3Dオブジェクト検出タスクにおいて最先端の手法より優れている。
関連論文リスト
- HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective [11.841338298700421]
本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。
Rope3DとDAIR-V2X-Iデータセットを用いて実験を行い、提案アルゴリズムが車とサイクリストの両方を検知する際の性能を実証した。
論文 参考訳(メタデータ) (2024-10-10T09:37:33Z) - Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction [28.071645239063553]
本稿では,DHD(Deep Height Decoupling,ディープハイトデカップリング,Deep Height Decoupling,DHD)について述べる。
一般的なOcc3D-nuScenesベンチマークでは,最小入力フレームでも最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-12T12:12:19Z) - HeightLane: BEV Heightmap guided 3D Lane Detection [6.940660861207046]
単分子画像からの正確な3次元車線検出は、深さのあいまいさと不完全な地盤モデリングによる重要な課題を示す。
本研究は,マルチスロープ仮定に基づいてアンカーを作成することにより,単眼画像から高さマップを予測する革新的な手法であるHeightLaneを紹介する。
HeightLaneは、Fスコアの観点から最先端のパフォーマンスを実現し、現実世界のアプリケーションにおけるその可能性を強調している。
論文 参考訳(メタデータ) (2024-08-15T17:14:57Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。