論文の概要: Towards Model Generalization for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2205.11664v1
- Date: Mon, 23 May 2022 23:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 05:55:07.603189
- Title: Towards Model Generalization for Monocular 3D Object Detection
- Title(参考訳): 単眼3次元物体検出のためのモデル一般化に向けて
- Authors: Zhenyu Li, Zehui Chen, Ang Li, Liangji Fang, Qinhong Jiang, Xianming
Liu, Junjun Jiang
- Abstract要約: 我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
- 参考スコア(独自算出の注目度): 57.25828870799331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D object detection (Mono3D) has achieved tremendous improvements
with emerging large-scale autonomous driving datasets and the rapid development
of deep learning techniques. However, caused by severe domain gaps (e.g., the
field of view (FOV), pixel size, and object size among datasets), Mono3D
detectors have difficulty in generalization, leading to drastic performance
degradation on unseen domains. To solve these issues, we combine the
position-invariant transform and multi-scale training with the pixel-size depth
strategy to construct an effective unified camera-generalized paradigm (CGP).
It fully considers discrepancies in the FOV and pixel size of images captured
by different cameras. Moreover, we further investigate the obstacle in
quantitative metrics when cross-dataset inference through an exhaustive
systematic study. We discern that the size bias of prediction leads to a
colossal failure. Hence, we propose the 2D-3D geometry-consistent object
scaling strategy (GCOS) to bridge the gap via an instance-level augment. Our
method called DGMono3D achieves remarkable performance on all evaluated
datasets and surpasses the SoTA unsupervised domain adaptation scheme even
without utilizing data on the target domain.
- Abstract(参考訳): モノクロ3dオブジェクト検出(mono3d)は、新たな大規模自動運転データセットとディープラーニング技術の急速な開発によって、大幅に改善されている。
しかし、重い領域ギャップ(例えば、視野(FOV)、ピクセルサイズ、データセット内のオブジェクトサイズ)によってMono3D検出器は一般化が困難になり、目に見えない領域で劇的な性能低下をもたらす。
これらの問題を解決するために、位置不変変換とマルチスケールトレーニングと画素サイズ深度戦略を組み合わせて、効果的な統合カメラ一般化パラダイム(CGP)を構築する。
さまざまなカメラで撮影された画像のFOVとピクセルサイズの差を十分に考慮している。
さらに,データ横断推論における定量的指標の障害を,徹底的な体系的研究を通じてさらに検討する。
予測のサイズバイアスが余剰な失敗につながると認識する。
そこで本研究では,2D-3D幾何整合性オブジェクトスケーリング戦略(GCOS)を提案し,そのギャップをインスタンスレベルの拡張によって埋める。
dgmono3d と呼ばれる手法は,すべての評価データセットにおいて顕著な性能を達成し,対象領域のデータを用いなくても sota の教師なしドメイン適応方式を上回っている。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。