論文の概要: Rotation Matters: Generalized Monocular 3D Object Detection for Various
Camera Systems
- arxiv url: http://arxiv.org/abs/2310.05366v1
- Date: Mon, 9 Oct 2023 02:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:59:29.882627
- Title: Rotation Matters: Generalized Monocular 3D Object Detection for Various
Camera Systems
- Title(参考訳): 回転問題:様々なカメラシステムのための一般化単眼物体検出
- Authors: SungHo Moon, JinWoo Bae, SungHoon Im
- Abstract要約: トレーニングデータセットをキャプチャするシステムとは異なるカメラシステムに適用した場合、3Dオブジェクト検出性能は大幅に低下する。
乗客の車のデータセットに基づいて訓練された3D検出器は、バスに搭載されたカメラの正確な3Dバウンディングボックスを後退させるのにほとんど失敗する。
本稿では,様々なカメラシステムに適用可能な汎用3次元物体検出手法を提案する。
- 参考スコア(独自算出の注目度): 15.47493325786152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on monocular 3D object detection is being actively studied, and as a
result, performance has been steadily improving. However, 3D object detection
performance is significantly reduced when applied to a camera system different
from the system used to capture the training datasets. For example, a 3D
detector trained on datasets from a passenger car mostly fails to regress
accurate 3D bounding boxes for a camera mounted on a bus. In this paper, we
conduct extensive experiments to analyze the factors that cause performance
degradation. We find that changing the camera pose, especially camera
orientation, relative to the road plane caused performance degradation. In
addition, we propose a generalized 3D object detection method that can be
universally applied to various camera systems. We newly design a compensation
module that corrects the estimated 3D bounding box location and heading
direction. The proposed module can be applied to most of the recent 3D object
detection networks. It increases AP3D score (KITTI moderate, IoU $> 70\%$)
about 6-to-10-times above the baselines without additional training. Both
quantitative and qualitative results show the effectiveness of the proposed
method.
- Abstract(参考訳): 単眼3次元物体検出の研究が活発に行われており、その結果、性能は着実に改善されている。
しかし、トレーニングデータセットをキャプチャするシステムとは異なるカメラシステムに適用した場合、3Dオブジェクト検出性能は大幅に低下する。
例えば、乗用車からデータセットでトレーニングされた3d検出器は、バスに搭載されたカメラの正確な3dバウンディングボックスを後退させるのにほとんど失敗する。
本稿では,性能劣化の原因を解明するための広範囲な実験を行う。
道路面に対してカメラの姿勢,特にカメラの向きを変えると性能が低下することがわかった。
さらに,様々なカメラシステムに適用可能な汎用3次元物体検出手法を提案する。
推定した3次元境界ボックスの位置と方向を補正する補償モジュールを新たに設計する。
提案モジュールは最近の3Dオブジェクト検出ネットワークの多くに適用可能である。
AP3Dスコア(KITTI moderate, IoU $> 70\%$)を、追加のトレーニングなしでベースラインより6~10倍高くする。
定量的および定性的な結果は,提案手法の有効性を示す。
関連論文リスト
- HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective [11.841338298700421]
本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。
Rope3DとDAIR-V2X-Iデータセットを用いて実験を行い、提案アルゴリズムが車とサイクリストの両方を検知する際の性能を実証した。
論文 参考訳(メタデータ) (2024-10-10T09:37:33Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Object DGCNN: 3D Object Detection using Dynamic Graphs [32.090268859180334]
3Dオブジェクト検出は、複雑なトレーニングとテストパイプラインを伴うことが多い。
近年,非最大抑圧型2次元物体検出モデルに着想を得て,点雲上の3次元物体検出アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T17:59:38Z) - MonoCInIS: Camera Independent Monocular 3D Object Detection using
Instance Segmentation [55.96577490779591]
大規模で異質なトレーニングデータを活用するためには、"カメラ独立"の度合いが必要である。
大規模で異質なトレーニングデータの恩恵を受けるためには、より多くのデータがパフォーマンスを自動で保証するのではなく、"カメラ独立"の度合いを持つ必要がある。
論文 参考訳(メタデータ) (2021-10-01T14:56:37Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。