論文の概要: Neural Rendering for Sensor Adaptation in 3D Object Detection
- arxiv url: http://arxiv.org/abs/2508.12695v1
- Date: Mon, 18 Aug 2025 07:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.070766
- Title: Neural Rendering for Sensor Adaptation in 3D Object Detection
- Title(参考訳): 3次元物体検出におけるセンサ適応のためのニューラルレンダリング
- Authors: Felix Embacher, David Holtz, Jonas Uhrig, Marius Cordts, Markus Enzweiler,
- Abstract要約: クロスセンサー領域ギャップが最先端の3Dオブジェクト検出器に与える影響について検討する。
我々は,BEVFormerのような後方投影を備えた高密度のBird's Eye View(BEV)表現に基づくモデルアーキテクチャが,センサ構成の変化に対して最も堅牢であることを示す。
ニューラルレンダリングに基づく新しいデータ駆動型センサ適応パイプラインを提案する。
- 参考スコア(独自算出の注目度): 3.10688583550805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous vehicles often have varying camera sensor setups, which is inevitable due to restricted placement options for different vehicle types. Training a perception model on one particular setup and evaluating it on a new, different sensor setup reveals the so-called cross-sensor domain gap, typically leading to a degradation in accuracy. In this paper, we investigate the impact of the cross-sensor domain gap on state-of-the-art 3D object detectors. To this end, we introduce CamShift, a dataset inspired by nuScenes and created in CARLA to specifically simulate the domain gap between subcompact vehicles and sport utility vehicles (SUVs). Using CamShift, we demonstrate significant cross-sensor performance degradation, identify robustness dependencies on model architecture, and propose a data-driven solution to mitigate the effect. On the one hand, we show that model architectures based on a dense Bird's Eye View (BEV) representation with backward projection, such as BEVFormer, are the most robust against varying sensor configurations. On the other hand, we propose a novel data-driven sensor adaptation pipeline based on neural rendering, which can transform entire datasets to match different camera sensor setups. Applying this approach improves performance across all investigated 3D object detectors, mitigating the cross-sensor domain gap by a large margin and reducing the need for new data collection by enabling efficient data reusability across vehicles with different sensor setups. The CamShift dataset and the sensor adaptation benchmark are available at https://dmholtz.github.io/camshift/.
- Abstract(参考訳): 自動運転車は、しばしば様々なカメラセンサーを備えており、異なる車両の配置オプションが制限されているため避けられない。
ある特定の設定で知覚モデルをトレーニングし、それを新しい異なるセンサー設定で評価すると、いわゆるクロスセンサードメインギャップが明らかになり、通常は精度が低下する。
本稿では, クロスセンサ領域のギャップが最先端の3Dオブジェクト検出器に与える影響について検討する。
この目的のために、我々はCARLAで作成されたnuScenesにインスパイアされたデータセットであるCamShiftを紹介し、サブコンパクト車とスポーツユーティリティ車(SUV)のドメインギャップを具体的にシミュレートする。
CamShiftを用いて、クロスセンサ性能の大幅な低下を示し、モデルアーキテクチャのロバスト性依存性を特定し、その効果を緩和するためのデータ駆動ソリューションを提案する。
一方,BEVFormerのような後方投影型高密度のBird's Eye View(BEV)表現に基づくモデルアーキテクチャは,センサ構成の変化に対して最も堅牢であることを示す。
一方,ニューラルレンダリングに基づく新しいデータ駆動型センサ適応パイプラインを提案する。
このアプローチを適用することで、調査対象のすべての3Dオブジェクト検出器のパフォーマンスを改善し、クロスセンサー領域ギャップを大きなマージンで軽減し、異なるセンサー構成の車両間で効率的なデータ再利用を可能にすることにより、新たなデータ収集の必要性を低減できる。
CamShiftデータセットとセンサー適応ベンチマークはhttps://dmholtz.github.io/camshift/で公開されている。
関連論文リスト
- OccCylindrical: Multi-Modal Fusion with Cylindrical Representation for 3D Semantic Occupancy Prediction [9.099401529072324]
そこで我々は,OccCylindricalを提案する。
提案手法は, より微細な形状の細部を保存し, 性能を向上する。
雨と夜間のシナリオに挑戦するnuScenesデータセットで実施された実験は、我々のアプローチの有効性と最先端のパフォーマンスを確認します。
論文 参考訳(メタデータ) (2025-05-06T08:12:31Z) - ACROSS: A Deformation-Based Cross-Modal Representation for Robotic Tactile Perception [1.5566524830295307]
ACROSSは、センサーの変形情報を利用して触覚センサ間でデータを翻訳するフレームワークである。
我々はバイオタックセンサの触覚信号をDIGIT触覚画像に転送する。
論文 参考訳(メタデータ) (2024-11-13T11:29:14Z) - Adaptive Domain Learning for Cross-domain Image Denoising [57.4030317607274]
本稿では,クロスドメイン画像認識のための適応型ドメイン学習手法を提案する。
私たちは、異なるセンサー(ソースドメイン)からの既存のデータに加えて、新しいセンサー(ターゲットドメイン)からの少量のデータを使用します。
ADLトレーニングスキームは、ターゲットドメインのモデルを微調整するのに有害なソースドメイン内のデータを自動的に削除する。
また,センサ固有の情報(センサタイプとISO)を取り入れ,画像認識のための入力データを理解するための変調モジュールも導入した。
論文 参考訳(メタデータ) (2024-11-03T08:08:26Z) - Detect Closer Surfaces that can be Seen: New Modeling and Evaluation in Cross-domain 3D Object Detection [7.464834150824093]
本研究では,エゴ車両のセンサに近接する表面を検出する3次元物体検出モデルの能力を測定するための2つの指標を提案する。
また、学習可能な近接面にもっと焦点を合わせるために、EdgeHeadという改良ヘッドも提案しています。
論文 参考訳(メタデータ) (2024-07-04T17:06:16Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Towards Viewpoint Robustness in Bird's Eye View Segmentation [85.99907496019972]
AV知覚モデルがカメラ視点の変化にどのように影響するかを考察する。
投機時のピッチ、ヨー、深さ、高さへの小さな変化は、大きな性能低下につながる。
本稿では,新しいビュー合成技術を導入し,収集したデータをターゲットリグの視点に変換する手法を提案する。
論文 参考訳(メタデータ) (2023-09-11T02:10:07Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - 3D-VField: Learning to Adversarially Deform Point Clouds for Robust 3D
Object Detection [111.32054128362427]
安全クリティカルな環境では、アウト・オブ・ディストリビューションとロングテールサンプルの堅牢性は、危険な問題を回避するのに不可欠である。
トレーニング中の変形点雲を考慮した3次元物体検出器の領域外データへの一般化を著しく改善する。
我々は、リアルに損傷を受けた稀な車の合成データセットであるCrashDを提案し、共有する。
論文 参考訳(メタデータ) (2021-12-09T08:50:54Z) - Radar Voxel Fusion for 3D Object Detection [0.0]
本稿では,3次元物体検出のための低レベルセンサ融合ネットワークを開発する。
レーダーセンサーの融合は、雨や夜景のような裂け目状態において特に有益である。
論文 参考訳(メタデータ) (2021-06-26T20:34:12Z) - Learning Camera Miscalibration Detection [83.38916296044394]
本稿では,視覚センサ,特にRGBカメラの誤校正検出を学習するためのデータ駆動型アプローチに焦点を当てた。
コントリビューションには、RGBカメラの誤校正基準と、この基準に基づく新しい半合成データセット生成パイプラインが含まれる。
深層畳み込みニューラルネットワークをトレーニングすることにより、カメラ固有のパラメータの再校正が必要か否かを判断するパイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-24T10:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。