論文の概要: Leveraging Transformer Decoder for Automotive Radar Object Detection
- arxiv url: http://arxiv.org/abs/2601.13386v1
- Date: Mon, 19 Jan 2026 20:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.057786
- Title: Leveraging Transformer Decoder for Automotive Radar Object Detection
- Title(参考訳): 自動車用レーダー物体検出用トランスフォーマーデコーダの活用
- Authors: Changxu Zhang, Zhaoze Wang, Tai Fei, Christopher Grimm, Yi Jin, Claas Tebruegge, Ernst Warsitz, Markus Gardill,
- Abstract要約: 本稿では,新しいトランスフォーマーデコーダを用いた3次元レーダオブジェクト検出のためのトランスフォーマーベースアーキテクチャを提案する。
Pyramid Token Fusion (PTF)は、特徴ピラミッドを統一されたスケール対応トークンシーケンスに変換する。
我々はRADDet上で提案したフレームワークを評価し、最先端のレーダー専用ベースラインよりも大幅に改善した。
- 参考スコア(独自算出の注目度): 9.764772760421792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a Transformer-based architecture for 3D radar object detection that uses a novel Transformer Decoder as the prediction head to directly regress 3D bounding boxes and class scores from radar feature representations. To bridge multi-scale radar features and the decoder, we propose Pyramid Token Fusion (PTF), a lightweight module that converts a feature pyramid into a unified, scale-aware token sequence. By formulating detection as a set prediction problem with learnable object queries and positional encodings, our design models long-range spatial-temporal correlations and cross-feature interactions. This approach eliminates dense proposal generation and heuristic post-processing such as extensive non-maximum suppression (NMS) tuning. We evaluate the proposed framework on the RADDet, where it achieves significant improvements over state-of-the-art radar-only baselines.
- Abstract(参考訳): 本稿では,新しいトランスフォーマーデコーダを予測ヘッドとして用い,レーダ特徴表現から3次元境界ボックスとクラススコアを直接回帰するトランスフォーマーを用いた3次元レーダオブジェクト検出アーキテクチャを提案する。
マルチスケールレーダの特徴とデコーダをブリッジするために,特徴ピラミッドを統一されたスケール対応トークンシーケンスに変換する軽量モジュールであるPraamid Token Fusion (PTF)を提案する。
学習可能なオブジェクトクエリと位置エンコーディングのセット予測問題として検出を定式化することにより、長距離空間時間相関と機能間相互作用をモデル化する。
このアプローチは、広範囲な非最大抑圧(NMS)チューニングのような高密度な提案生成とヒューリスティックな後処理を排除する。
我々はRADDet上で提案したフレームワークを評価し、最先端のレーダー専用ベースラインよりも大幅に改善した。
関連論文リスト
- TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder [66.22997415145467]
本稿では,スパース領域における検出機能を改善する共同補完・検出フレームワークを提案する。
具体的には,トランスブリッジ(TransBridge)を提案する。トランスブリッジ(TransBridge)はトランスフォーマーをベースとした新しいアップサンプリングブロックである。
その結果,本フレームワークは,各手法の平均精度(mAP)が0.7から1.5の範囲で,エンドツーエンドの3Dオブジェクト検出を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2025-12-12T00:08:03Z) - PAN: Pillars-Attention-Based Network for 3D Object Detection [3.3274570204477922]
本研究では,鳥眼ビュー(BEV)におけるカメラとレーダーを用いた新しい3次元物体検出アルゴリズムを提案する。
我々のアルゴリズムは、特徴を検知ヘッドに融合する前にレーダーの利点を利用する。
新しいバックボーンが導入され、レーダー柱の特徴を埋め込み次元にマッピングする。
論文 参考訳(メタデータ) (2025-09-19T12:40:49Z) - Mask-RadarNet: Enhancing Transformer With Spatial-Temporal Semantic Context for Radar Object Detection in Autonomous Driving [11.221694136475554]
本稿では,入力レーダデータから階層的セマンティック特徴をフル活用するMask-RadarNetというモデルを提案する。
Mask-RadarNetは、インターリーブド畳み込みとアテンション操作を組み合わせて、トランスフォーマーベースのモデルで従来のアーキテクチャを置き換える。
計算複雑性が比較的低く、パラメータも少ないため、提案したMask-RadarNetは、自律運転における物体検出における高い認識精度を実現する。
論文 参考訳(メタデータ) (2024-12-20T06:39:40Z) - RCTrans: Radar-Camera Transformer via Radar Densifier and Sequential Decoder for 3D Object Detection [16.37397687985041]
レーダーカメラによる3D物体検出では、レーダーポイント雲は希少でノイズが多い。
我々はRadar-Pruning Transformer (RCTrans) という新しいクエリベースの検出手法を提案する。
提案手法は,最新のレーダーカメラによる3D検出結果を実現する。
論文 参考訳(メタデータ) (2024-12-17T11:02:36Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection
in Autonomous Driving [121.44554957537613]
我々は,リダデータから映像オブジェクトを検出するための時空間領域とチャネル領域の関係をモデル化する,テンポラル・チャネル変換器(Temporal-Channel Transformer)を提案する。
具体的には、トランスの時間チャネルエンコーダは、異なるチャネルやフレームの情報をエンコードするように設計されている。
我々は, nuScenesベンチマークを用いて, 格子ボクセルを用いた3次元物体検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-27T09:35:39Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。