論文の概要: DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds
- arxiv url: http://arxiv.org/abs/2603.09695v2
- Date: Thu, 12 Mar 2026 06:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.458197
- Title: DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds
- Title(参考訳): DRIFT:4次元レーダ点雲を用いた自動走行知覚のためのデュアル表現連成変換器
- Authors: Siqi Pei, Andras Palffy, Dariu M. Gavrila,
- Abstract要約: DRIFTは、ローカルコンテキストとグローバルコンテキストの両方をキャプチャして融合するモデルである。
広く使われているView-of-Delft(VoD)データセットとプロプライエタリな内部データセットで評価されている。
- 参考スコア(独自算出の注目度): 4.71547360356314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D radars, which provide 3D point cloud data along with Doppler velocity, are attractive components of modern automated driving systems due to their low cost and robustness under adverse weather conditions. However, they provide a significantly lower point cloud density than LiDAR sensors. This makes it important to exploit not only local but also global contextual scene information. This paper proposes DRIFT, a model that effectively captures and fuses both local and global contexts through a dual-path architecture. The model incorporates a point path to aggregate fine-grained local features and a pillar path to encode coarse-grained global features. These two parallel paths are intertwined via novel feature-sharing layers at multiple stages, enabling full utilization of both representations. DRIFT is evaluated on the widely used View-of-Delft (VoD) dataset and a proprietary internal dataset. It outperforms the baselines on the tasks of object detection and/or free road estimation. For example, DRIFT achieves a mean average precision (mAP) of 52.6% (compared to, say, 45.4% of CenterPoint) on the VoD dataset.
- Abstract(参考訳): ドップラー速度とともに3Dポイントクラウドデータを提供する4Dレーダーは、悪天候下での低コストと堅牢性のため、現代の自動運転システムの魅力的なコンポーネントである。
しかし、それらはLiDARセンサよりもかなり低い点の雲密度を提供する。
これにより、ローカルだけでなく、グローバルなコンテキストシーン情報も活用することが重要である。
本稿では,DRIFTを提案する。DRIFTは,ローカルとグローバルの両方のコンテキストを,デュアルパスアーキテクチャによって効果的にキャプチャし,融合するモデルである。
このモデルには、細粒度の局所的な特徴を集約する点パスと、粗粒度のグローバルな特徴を符号化する柱パスが組み込まれている。
これら2つの並列パスは、新しい特徴共有層を介して複数の段階で相互接続され、両方の表現を完全に活用することができる。
DRIFTは広く使われているView-of-Delft(VoD)データセットとプロプライエタリな内部データセットに基づいて評価される。
オブジェクト検出や自由道路推定のタスクのベースラインを上回ります。
例えば、DRIFTはVoDデータセットの平均平均精度(mAP)を52.6%(例えば、CenterPointの45.4%)で達成している。
関連論文リスト
- MLF-4DRCNet: Multi-Level Fusion with 4D Radar and Camera for 3D Object Detection in Autonomous Driving [31.26862558777292]
MLF-4DRCNetは4次元レーダとカメラ画像の多層融合による3次元物体検出のための新しいフレームワークである。
ポイントレベル、シーンレベル、プロポーザルレベルのマルチモーダル情報を組み込んで、包括的な特徴表現を可能にする。
これは、View-of-Delftデータセット上のLiDARベースのモデルに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-23T04:02:28Z) - MetaOcc: Spatio-Temporal Fusion of Surround-View 4D Radar and Camera for 3D Occupancy Prediction with Dual Training Strategies [12.485905108032146]
本稿では,Omni指向の3次元占有予測のための新しいマルチモーダルフレームワークであるMetaOccを紹介する。
レーダーデータにエンコーダを直接適用することの限界に対処するため,レーダハイト自己保持モジュールを提案する。
高価な点クラウドへの依存を軽減するため,オープンセットセグメンタに基づく擬似ラベル生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-26T03:51:56Z) - V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception [61.58737390490639]
V2X-Radarは、4Dレーダを特徴とする世界初の大規模実世界のマルチモーダルデータセットである。
データセットは20KのLiDARフレーム、40Kのカメライメージ、350Kの注釈付きボックスを含む20Kの4Dレーダデータで構成されている。
様々な研究領域をサポートするために, 協調認識のためのV2X-Radar-C, 路面認識のためのV2X-Radar-I, 単車知覚のためのV2X-Radar-Vを確立した。
論文 参考訳(メタデータ) (2024-11-17T04:59:00Z) - DOLPHINS: Dataset for Collaborative Perception enabled Harmonious and
Interconnected Self-driving [19.66714697653504]
V2Xネットワークは、自動運転における協調的な認識を可能にしている。
データセットの欠如は、協調認識アルゴリズムの開発を著しく妨げている。
DOLPHINS: cOllaborative Perception を実現するためのデータセットである Harmonious と Inter connected Self-driving をリリースする。
論文 参考訳(メタデータ) (2022-07-15T17:07:07Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - Road Segmentation on low resolution Lidar point clouds for autonomous
vehicles [3.6020689500145653]
道路分割作業の精度に及ぼす高密度点雲のサブサンプリング画像による表現の影響を評価する。
LIDARの球面座標を既存のLoDNNアーキテクチャの入力チャネルとして用いる。
論文 参考訳(メタデータ) (2020-05-27T00:38:39Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。