論文の概要: Geometry-aware data augmentation for monocular 3D object detection
- arxiv url: http://arxiv.org/abs/2104.05858v1
- Date: Mon, 12 Apr 2021 23:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 02:02:25.665527
- Title: Geometry-aware data augmentation for monocular 3D object detection
- Title(参考訳): モノクロ3次元物体検出のための幾何認識データ拡張
- Authors: Qing Lian, Botao Ye, Ruijia Xu, Weilong Yao, Tong Zhang
- Abstract要約: 本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
- 参考スコア(独自算出の注目度): 18.67567745336633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on monocular 3D object detection, one of the essential
modules in autonomous driving systems. A key challenge is that the depth
recovery problem is ill-posed in monocular data. In this work, we first conduct
a thorough analysis to reveal how existing methods fail to robustly estimate
depth when different geometry shifts occur. In particular, through a series of
image-based and instance-based manipulations for current detectors, we
illustrate existing detectors are vulnerable in capturing the consistent
relationships between depth and both object apparent sizes and positions. To
alleviate this issue and improve the robustness of detectors, we convert the
aforementioned manipulations into four corresponding 3D-aware data augmentation
techniques. At the image-level, we randomly manipulate the camera system,
including its focal length, receptive field and location, to generate new
training images with geometric shifts. At the instance level, we crop the
foreground objects and randomly paste them to other scenes to generate new
training instances. All the proposed augmentation techniques share the virtue
that geometry relationships in objects are preserved while their geometry is
manipulated. In light of the proposed data augmentation methods, not only the
instability of depth recovery is effectively alleviated, but also the final 3D
detection performance is significantly improved. This leads to superior
improvements on the KITTI and nuScenes monocular 3D detection benchmarks with
state-of-the-art results.
- Abstract(参考訳): 本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに当てはまらないことである。
本研究ではまず,既存の手法が,異なる幾何学的シフトが発生した場合の深さを頑健に推定できないことを明らかにする。
特に、現在の検出器に対する画像ベースおよびインスタンスベースの一連の操作を通じて、既存の検出器は、深さと物体の大きさと位置の両方の一貫性のある関係を捉えるのに脆弱であることを示す。
この問題を緩和し、検出器の堅牢性を向上させるため、上記の操作を対応する4つの3D対応データ拡張技術に変換する。
画像レベルでは、焦点距離、受容場、位置を含むカメラシステムをランダムに操作し、幾何学的シフトを伴う新しいトレーニング画像を生成する。
インスタンスレベルでは、フォアグラウンドオブジェクトを収穫し、ランダムに他のシーンにペーストして、新たなトレーニングインスタンスを生成します。
提案された拡張手法はすべて、オブジェクトの幾何学的関係がそれらの幾何学が操作される間保存されるという利点を共有している。
提案手法により, 深度回復の不安定性を効果的に緩和するだけでなく, 最終3次元検出性能も大幅に向上した。
これにより、KITTI と nuScenes のモノクロ3D 検出ベンチマークが改良され、最先端の結果が得られた。
関連論文リスト
- VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Is Pseudo-Lidar needed for Monocular 3D Object detection? [32.772699246216774]
我々は,擬似ライダー法のような深度事前学習の恩恵を受けることができるエンド・ツー・エンドの単分子3次元物体検出器DD3Dを提案する。
我々のアーキテクチャは、深度推定と3次元検出の効果的な情報伝達のために設計されており、ラベルなし事前学習データの量でスケールすることができる。
論文 参考訳(メタデータ) (2021-08-13T22:22:51Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。