論文の概要: Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View
- arxiv url: http://arxiv.org/abs/2303.01686v1
- Date: Fri, 3 Mar 2023 02:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 16:20:17.524946
- Title: Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View
- Title(参考訳): バードアイビューにおける多視点3次元物体検出のための領域一般化に向けて
- Authors: Shuo Wang, Xinhai Zhao, Hai-Ming Xu, Zehui Chen, Dameng Yu, Jiahao
Chang, Zhen Yang, Feng Zhao
- Abstract要約: まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
- 参考スコア(独自算出の注目度): 11.958753088613637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view 3D object detection (MV3D-Det) in Bird-Eye-View (BEV) has drawn
extensive attention due to its low cost and high efficiency. Although new
algorithms for camera-only 3D object detection have been continuously proposed,
most of them may risk drastic performance degradation when the domain of input
images differs from that of training. In this paper, we first analyze the
causes of the domain gap for the MV3D-Det task. Based on the covariate shift
assumption, we find that the gap mainly attributes to the feature distribution
of BEV, which is determined by the quality of both depth estimation and 2D
image's feature representation. To acquire a robust depth prediction, we
propose to decouple the depth estimation from the intrinsic parameters of the
camera (i.e. the focal length) through converting the prediction of metric
depth to that of scale-invariant depth and perform dynamic perspective
augmentation to increase the diversity of the extrinsic parameters (i.e. the
camera poses) by utilizing homography. Moreover, we modify the focal length
values to create multiple pseudo-domains and construct an adversarial training
loss to encourage the feature representation to be more domain-agnostic.
Without bells and whistles, our approach, namely DG-BEV, successfully
alleviates the performance drop on the unseen target domain without impairing
the accuracy of the source domain. Extensive experiments on various public
datasets, including Waymo, nuScenes, and Lyft, demonstrate the generalization
and effectiveness of our approach. To the best of our knowledge, this is the
first systematic study to explore a domain generalization method for MV3D-Det.
- Abstract(参考訳): Bird-Eye-View (BEV) における多視点3Dオブジェクト検出 (MV3D-Det) は, 低コストかつ高効率で注目されている。
カメラのみの3dオブジェクト検出のための新しいアルゴリズムは継続的に提案されているが、入力画像の領域がトレーニングの領域と異なる場合、そのほとんどが劇的な性能低下のリスクを負う可能性がある。
本稿ではまず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
共変量シフトの仮定に基づき、このギャップは、深度推定と2次元画像の特徴表現の両方の品質によって決定されるbevの特徴分布に主に依存することがわかった。
本研究では, カメラの内在パラメータ(すなわち焦点距離)から, 距離の予測をスケール不変深さに変換し, 外部パラメータ(すなわちカメラポーズ)の多様性を高めるために動的視点拡張を行うことにより, カメラの内在パラメータ(すなわち焦点距離)から奥行き推定を分離することを提案する。
さらに,複数の疑似ドメインを作成するために焦点長値を修正し,特徴表現をよりドメインに依存しないものにするために,敵対的なトレーニングロスを構築する。
ベルとホイッスルがなければ、我々のアプローチ、すなわちDG-BEVは、ソースドメインの精度を損なうことなく、目に見えないターゲットドメインのパフォーマンス低下を軽減します。
Waymo、nuScenes、Lyftなど、さまざまな公開データセットに関する大規模な実験は、このアプローチの一般化と有効性を示しています。
我々の知る限りでは、MV3D-Detの領域一般化法を探求する最初の体系的研究である。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Toward Accurate Camera-based 3D Object Detection via Cascade Depth
Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。
本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:21:26Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。