論文の概要: Exploring 2D Data Augmentation for 3D Monocular Object Detection
- arxiv url: http://arxiv.org/abs/2104.10786v1
- Date: Wed, 21 Apr 2021 22:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:46:11.014129
- Title: Exploring 2D Data Augmentation for 3D Monocular Object Detection
- Title(参考訳): 3次元物体検出のための2次元データ拡張の検討
- Authors: Sugirtha T, Sridevi M, Khailash Santhakumar, B Ravi Kiran, Thomas
Gauthier and Senthil Yogamani
- Abstract要約: 多くの標準的な2Dオブジェクト検出データ拡張技術は3Dボックスに拡張されない。
本研究では, 新規な視点合成を必要とせず, 単眼3次元検出のための2つの新しい増強法を提案する。
- 参考スコア(独自算出の注目度): 0.2936007114555107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is a key component of CNN based image recognition tasks
like object detection. However, it is relatively less explored for 3D object
detection. Many standard 2D object detection data augmentation techniques do
not extend to 3D box. Extension of these data augmentations for 3D object
detection requires adaptation of the 3D geometry of the input scene and
synthesis of new viewpoints. This requires accurate depth information of the
scene which may not be always available. In this paper, we evaluate existing 2D
data augmentations and propose two novel augmentations for monocular 3D
detection without a requirement for novel view synthesis. We evaluate these
augmentations on the RTM3D detection model firstly due to the shorter training
times . We obtain a consistent improvement by 4% in the 3D AP (@IoU=0.7) for
cars, ~1.8% scores 3D AP (@IoU=0.25) for pedestrians & cyclists, over the
baseline on KITTI car detection dataset. We also demonstrate a rigorous
evaluation of the mAP scores by re-weighting them to take into account the
class imbalance in the KITTI validation dataset.
- Abstract(参考訳): データ拡張は、オブジェクト検出のようなCNNベースの画像認識タスクの重要なコンポーネントである。
しかし,3次元物体検出では比較的少ない。
多くの標準的な2Dオブジェクト検出データ拡張技術は3Dボックスに拡張されない。
3次元物体検出のためのこれらのデータ拡張の拡張は、入力シーンの3次元形状の適応と新しい視点の合成を必要とする。
これは、常に利用できないシーンの正確な深度情報を必要とする。
本稿では,既存の2次元データ拡張の評価を行い,新しいビュー合成を必要とせず,単眼3次元検出のための2つの新しい拡張法を提案する。
まず,rtm3d検出モデルの強化について,学習時間の短縮から評価する。
自動車の3D AP(IoU=0.7)では、KITTI車検出データセットのベースラインよりも、歩行者とサイクリストの3D AP(IoU=0.25)が1.8%向上した。
また,KITTI検証データセットのクラス不均衡を考慮した重み付けにより,mAPスコアの厳密な評価を行う。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Every Dataset Counts: Scaling up Monocular 3D Object Detection with
Joint Datasets Training [8.759849966732519]
本研究では,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。
提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。
論文 参考訳(メタデータ) (2023-10-02T06:17:24Z) - LidarAugment: Searching for Scalable 3D LiDAR Data Augmentations [55.45435708426761]
LidarAugmentは3Dオブジェクト検出のための検索ベースのデータ拡張戦略である。
LidarAugmentはさまざまなモデルアーキテクチャ用にカスタマイズできる。
畳み込みベースのUPillars/StarNet/RSNとトランスフォーマーベースのSWFormerを一貫して改善する。
論文 参考訳(メタデータ) (2022-10-24T18:00:04Z) - Real3D-Aug: Point Cloud Augmentation by Placing Real Objects with
Occlusion Handling for 3D Detection and Segmentation [0.0]
本稿では,すでに注釈付けされているデータを複数回活用するデータ拡張手法を提案する。
本稿では,実データを再利用する拡張フレームワークを提案する。
このパイプラインは、3Dオブジェクトの検出とセマンティックセグメンテーションのためのトップパフォーマンスモデルのトレーニングにおいて、競争力があることを証明している。
論文 参考訳(メタデータ) (2022-06-15T16:25:30Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。