論文の概要: RCDINO: Enhancing Radar-Camera 3D Object Detection with DINOv2 Semantic Features
- arxiv url: http://arxiv.org/abs/2508.15353v1
- Date: Thu, 21 Aug 2025 08:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.238806
- Title: RCDINO: Enhancing Radar-Camera 3D Object Detection with DINOv2 Semantic Features
- Title(参考訳): RCDINO:DINOv2セマンティック特徴を用いたレーダーカメラ3次元物体検出
- Authors: Olga Matykina, Dmitry Yudin,
- Abstract要約: 3次元物体検出は、自律走行とロボット工学にとって不可欠である。
この研究は、視覚バックボーン機能を強化するマルチモーダルトランスフォーマーベースのモデルであるRCDINOを提案する。
nuScenesデータセットの実験では、RCDINOがレーダーカメラモデル間で最先端のパフォーマンスを達成することが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Three-dimensional object detection is essential for autonomous driving and robotics, relying on effective fusion of multimodal data from cameras and radar. This work proposes RCDINO, a multimodal transformer-based model that enhances visual backbone features by fusing them with semantically rich representations from the pretrained DINOv2 foundation model. This approach enriches visual representations and improves the model's detection performance while preserving compatibility with the baseline architecture. Experiments on the nuScenes dataset demonstrate that RCDINO achieves state-of-the-art performance among radar-camera models, with 56.4 NDS and 48.1 mAP. Our implementation is available at https://github.com/OlgaMatykina/RCDINO.
- Abstract(参考訳): 3次元物体検出は、カメラやレーダーからのマルチモーダルデータを効果的に融合させることによって、自律走行とロボット工学にとって不可欠である。
本研究は, マルチモーダルトランスフォーマーベースモデルであるRCDINOを提案し, 事前学習したDINOv2ファンデーションモデルから意味的にリッチな表現を融合することにより, 視覚的バックボーン特性を向上させる。
このアプローチは、ベースラインアーキテクチャとの互換性を維持しながら、視覚表現を強化し、モデルの検出性能を向上させる。
nuScenesデータセットの実験では、RCDINOは56.4 NDSと48.1 mAPのレーダーカメラモデルで最先端のパフォーマンスを達成した。
私たちの実装はhttps://github.com/OlgaMatykina/RCDINOで公開されています。
関連論文リスト
- RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection [5.36022165180739]
本稿では,マルチビュー画像セマンティクスとレーダとカメラポイント機能を統合した3次元認識のための新しいスパース融合変換器であるSpaRCを提案する。
nuScenes と TruckScenes のベンチマークに関する実証的な評価は、SpaRC が既存の密度の高い BEV ベースおよびスパースクエリベースの検出器より著しく優れていることを示している。
論文 参考訳(メタデータ) (2024-11-29T17:17:38Z) - UniBEVFusion: Unified Radar-Vision BEVFusion for 3D Object Detection [2.123197540438989]
多くのレーダービジョン融合モデルではレーダーを希薄なLiDARとして扱い、レーダー固有の情報を過小評価している。
本稿では,レーダー固有データを深度予測プロセスに統合したRDLモジュールを提案する。
また、異なるモードでBEV機能を抽出するUnified Feature Fusion (UFF)アプローチも導入する。
論文 参考訳(メタデータ) (2024-09-23T06:57:27Z) - RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。
RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。
提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文 参考訳(メタデータ) (2024-09-08T05:14:27Z) - FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion [8.168523242105763]
本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。
我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
論文 参考訳(メタデータ) (2023-11-07T00:12:01Z) - Reviewing 3D Object Detectors in the Context of High-Resolution 3+1D
Radar [0.7279730418361995]
高分解能4D(3+1D)レーダーセンサーは、ディープラーニングに基づくレーダー知覚の研究を行っている。
本研究では,3次元物体検出のためのレーダポイントクラウドで動作するディープラーニングモデルについて検討する。
論文 参考訳(メタデータ) (2023-08-10T10:10:43Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。