論文の概要: OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2211.01142v1
- Date: Wed, 2 Nov 2022 14:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:38:48.172778
- Title: OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection
- Title(参考訳): opa-3d:モノクロ3次元物体検出のためのオクルージョンアウェアピクセルアグリゲーション
- Authors: Yongzhi Su, Yan Di, Fabian Manhardt, Guangyao Zhai, Jason Rambach,
Benjamin Busam, Didier Stricker, Federico Tombari
- Abstract要約: OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 51.153003057515754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite monocular 3D object detection having recently made a significant leap
forward thanks to the use of pre-trained depth estimators for pseudo-LiDAR
recovery, such two-stage methods typically suffer from overfitting and are
incapable of explicitly encapsulating the geometric relation between depth and
object bounding box. To overcome this limitation, we instead propose OPA-3D, a
single-stage, end-to-end, Occlusion-Aware Pixel-Wise Aggregation network that
to jointly estimate dense scene depth with depth-bounding box residuals and
object bounding boxes, allowing a two-stream detection of 3D objects, leading
to significantly more robust detections. Thereby, the geometry stream denoted
as the Geometry Stream, combines visible depth and depth-bounding box residuals
to recover the object bounding box via explicit occlusion-aware optimization.
In addition, a bounding box based geometry projection scheme is employed in an
effort to enhance distance perception. The second stream, named as the Context
Stream, directly regresses 3D object location and size. This novel two-stream
representation further enables us to enforce cross-stream consistency terms
which aligns the outputs of both streams, improving the overall performance.
Extensive experiments on the public benchmark demonstrate that OPA-3D
outperforms state-of-the-art methods on the main Car category, whilst keeping a
real-time inference speed. We plan to release all codes and trained models
soon.
- Abstract(参考訳): 擬似LiDAR回復のための事前訓練された深度推定器を用いることにより, モノクロ3次元物体検出は近年大きな進歩を遂げているものの, このような2段階の手法は一般に過度な適合に悩まされ, 深さと物体の境界箱の間の幾何学的関係を明示的にカプセル化できない。
この制限を克服するため、我々はOPA-3Dを提案する。OPA-3Dは、奥行きボックス残差とオブジェクト境界ボックスとで密集したシーン深度を共同で推定し、3Dオブジェクトの2ストリーム検出を可能にし、より堅牢な検出を実現する。
これにより、幾何ストリームと呼ばれる幾何ストリームは、可視深度と深度境界ボックス残差を組み合わせて、明示的なオクルージョン・アウェア最適化によりオブジェクトバウンディングボックスを回復する。
また、距離知覚を高めるため、境界ボックスに基づく幾何投影スキームが用いられる。
第2のストリームはコンテキストストリームと呼ばれ、3dオブジェクトの位置とサイズを直接レグレッションする。
この新たな2ストリーム表現により、両ストリームの出力を整合させるクロスストリーム整合項の強制が可能になり、全体的なパフォーマンスが向上する。
OPA-3Dは、リアルタイムの推論速度を維持しながら、主要な自動車カテゴリーにおける最先端の手法よりも優れていることを示す。
近いうちにすべてのコードとトレーニングモデルをリリースする予定です。
関連論文リスト
- MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors [24.753860375872215]
本稿では,MonoDGPと呼ばれるトランスフォーマーを用いたモノクロ3Dオブジェクト検出手法を提案する。
射影公式を変更するために、パースペクティブ不変幾何誤差を採用する。
提案手法は, 余分なデータを必要としないKITTIベンチマークにおいて, 最先端の性能を示す。
論文 参考訳(メタデータ) (2024-10-25T14:31:43Z) - CVCP-Fusion: On Implicit Depth Estimation for 3D Bounding Box Prediction [2.0375637582248136]
Cross-View Center Point-Fusionは、3Dオブジェクト検出を行う最先端モデルである。
我々のアーキテクチャは、以前に確立されたアルゴリズム、クロスビュートランスフォーマー、CenterPointのアスペクトを利用する。
論文 参考訳(メタデータ) (2024-10-15T02:55:07Z) - OriCon3D: Effective 3D Object Detection using Orientation and Confidence [0.0]
1つの画像から3次元物体を検出するための高度な手法を提案する。
我々は、深層畳み込みニューラルネットワークに基づく3Dオブジェクト重み付け指向回帰パラダイムを用いる。
提案手法は, 3次元オブジェクトのポーズ決定の精度を大幅に向上し, ベースライン法を超越した。
論文 参考訳(メタデータ) (2023-04-27T19:52:47Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - Categorical Depth Distribution Network for Monocular 3D Object Detection [7.0405916639906785]
モノラル3D検出の重要な課題は、物体の深度を正確に予測することです。
多くの手法は3次元検出を支援するために直接深度を推定しようとするが、深度不正確な結果、限られた性能を示す。
Categorical Depth Distribution Network (CADDN) を提案し、3次元空間の適切な深さ間隔にリッチなコンテキスト特徴情報を投影する。
提案手法をkitti 3d object detection benchmarkで検証し, 単項法のうち1位にランク付けした。
論文 参考訳(メタデータ) (2021-03-01T16:08:29Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Monocular 3D Object Detection with Decoupled Structured Polygon
Estimation and Height-Guided Depth Estimation [41.29145717658494]
本稿では,検出問題を構造化ポリゴン予測タスクと深度回復タスクに分解する新しい統合フレームワークを提案する。
広く使われている3Dバウンディングボックスの提案と比較すると、3D検出のためのより良い表現であることが示されている。
KITTIベンチマークにおいて,本手法が最先端検出精度を実現するための実験を行った。
論文 参考訳(メタデータ) (2020-02-05T03:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。