論文の概要: RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2603.07493v1
- Date: Sun, 08 Mar 2026 06:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.687665
- Title: RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection
- Title(参考訳): RayD3D:ロバストなマルチビュー3Dオブジェクト検出のための線に沿って深度知識を蒸留する
- Authors: Rui Ding, Zhaonian Kuang, Zongwei Zhou, Meng Yang, Xinhu Zheng, Gang Hua,
- Abstract要約: 鳥の目視(BEV)を用いた多視点3D検出は、自律走行とロボット工学にとって不可欠である。
我々は、光線に沿って重要な深度知識を伝達するRayD3Dを提案する。
レイベースのContrastive Distillation (RCD)は、コントラスト学習を、光線に沿ってサンプリングすることで蒸留に取り入れ、LiDARがオブジェクトを正確に位置付けする方法を学ぶ。
線量蒸留(RWD)は、LiDARの深度非関連情報の干渉を最小限に抑えるため、線量に基づく蒸留重量を適応的に調整する。
- 参考スコア(独自算出の注目度): 26.899410431099042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view 3D detection with bird's eye view (BEV) is crucial for autonomous driving and robotics, but its robustness in real-world is limited as it struggles to predict accurate depth values. A mainstream solution, cross-modal distillation, transfers depth information from LiDAR to camera models but also unintentionally transfers depth-irrelevant information (e.g. LiDAR density). To mitigate this issue, we propose RayD3D, which transfers crucial depth knowledge along the ray: a line projecting from the camera to true location of an object. It is based on the fundamental imaging principle that predicted location of this object can only vary along this ray, which is finally determined by predicted depth value. Therefore, distilling along the ray enables more effective depth information transfer. More specifically, we design two ray-based distillation modules. Ray-based Contrastive Distillation (RCD) incorporates contrastive learning into distillation by sampling along the ray to learn how LiDAR accurately locates objects. Ray-based Weighted Distillation (RWD) adaptively adjusts distillation weight based on the ray to minimize the interference of depth-irrelevant information in LiDAR. For validation, we widely apply RayD3D into three representative types of BEV-based models, including BEVDet, BEVDepth4D, and BEVFormer. Our method is trained on clean NuScenes, and tested on both clean NuScenes and RoboBEV with a variety types of data corruptions. Our method significantly improves the robustness of all the three base models in all scenarios without increasing inference costs, and achieves the best when compared to recently released multi-view and distillation models.
- Abstract(参考訳): 鳥の目視(BEV)を用いた多視点3D検出は、自律走行とロボット工学において重要であるが、正確な深度値の予測に苦慮しているため、実世界のロバスト性は限られている。
主流のソリューションであるクロスモーダル蒸留は、LiDARからカメラモデルに深度情報を転送するが、意図せずに深度非関連情報(例えばLiDAR密度)を転送する。
この問題を軽減するために、カメラからオブジェクトの真の位置へ投影される線という、光線に沿った重要な深度知識を伝達するRayD3Dを提案する。
これは、この天体の予測位置は、この光線に沿ってのみ変化し、最終的に予測された深さ値によって決定されるという基本的な画像原理に基づいている。
そのため、光線に沿って蒸留することで、より効果的な深度情報伝達が可能となる。
具体的には、2つのレイベースの蒸留モジュールを設計する。
レイベースのContrastive Distillation (RCD)は、コントラスト学習を、光線に沿ってサンプリングすることで蒸留に取り入れ、LiDARがオブジェクトを正確に位置付けする方法を学ぶ。
線量蒸留(RWD)は、LiDARの深度非関連情報の干渉を最小限に抑えるため、線量に基づく蒸留重量を適応的に調整する。
検証には、BEVDet、BEVDepth4D、BEVFormerを含む3種類のBEVベースモデルにRayD3Dを広く適用する。
本手法は, クリーンなNuSceneとRoboBEVの両方で, さまざまな種類のデータ破損を検知し, クリーンなNuSceneをトレーニングする。
提案手法は, 予測コストを増大させることなく, 全てのシナリオにおける3つの基本モデルのロバスト性を大幅に向上させ, 最近リリースされたマルチビュー・蒸留モデルと比較して, 最良を達成できる。
関連論文リスト
- Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection [41.41435217865119]
クロスモダリティの知識蒸留は、LiDARから画像ベースネットワークへの深度情報転送を効果的に行うことができる。
しかし、画像とLiDARの間のモダリティギャップは、その精度を著しく制限している。
これらの問題を克服するために,MonoSTLという選択学習手法を提案する。
論文 参考訳(メタデータ) (2026-03-08T05:05:07Z) - L3DR: 3D-aware LiDAR Diffusion and Rectification [85.5914944339043]
レンジビュー(RV)に基づくLiDAR拡散は、最近2Dフォトリアリズムに向けて大きな進歩を遂げた。
しかし、3次元幾何学的リアリズムを無視し、深部出血や波状表面といった様々なRVアーティファクトをしばしば生成する。
我々は,3次元空間におけるRVアーティファクトの回帰とキャンセルが可能な,L3DRを3D対応のLiDAR拡散・整流フレームワークとして設計する。
論文 参考訳(メタデータ) (2026-02-22T06:31:58Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D
Object Detection [46.041193889845474]
レイデノジング(Ray Denoising)は、カメラ線に沿って戦略的にサンプリングすることで検出精度を高める革新的な手法である。
Ray Denoisingはプラグイン・アンド・プレイモジュールとして設計されており、DETR方式のマルチビュー3D検出器と互換性がある。
NuScenesデータセット上の最先端のStreamPETR法よりも平均精度(mAP)が1.9%向上した。
論文 参考訳(メタデータ) (2024-02-06T02:17:44Z) - RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate
Multi-View Stereo [21.209964556493368]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-16T02:10:47Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object
Detection [96.63947479020631]
多くの現実世界の応用において、大量生産されたロボットや車両が使用するLiDARポイントは通常、大規模な公開データセットよりもビームが少ない。
異なるLiDARビームによって誘導される領域ギャップをブリッジして3次元物体検出を行うLiDAR蒸留法を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:59:02Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。