論文の概要: Diversity Matters: Fully Exploiting Depth Clues for Reliable Monocular
3D Object Detection
- arxiv url: http://arxiv.org/abs/2205.09373v1
- Date: Thu, 19 May 2022 08:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:02:10.413788
- Title: Diversity Matters: Fully Exploiting Depth Clues for Reliable Monocular
3D Object Detection
- Title(参考訳): 多様性問題:信頼性のある単眼3次元物体検出のための深さ手がかりの完全活用
- Authors: Zhuoling Li, Zhan Qu, Yang Zhou, Jianzhuang Liu, Haoqian Wang, Lihui
Jiang
- Abstract要約: 本研究では,モノクロ3次元画像のサブタスクから視覚的手がかりを完全に探索する深度問題解決システムを提案する。
提案手法は,KITTIの3次元オブジェクト検出ベンチマークにおいて,テスト分割のモードレベルに対して,現行のベストメソッドを20%以上上回っている。
- 参考スコア(独自算出の注目度): 37.37316176663782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an inherently ill-posed problem, depth estimation from single images is
the most challenging part of monocular 3D object detection (M3OD). Many
existing methods rely on preconceived assumptions to bridge the missing spatial
information in monocular images, and predict a sole depth value for every
object of interest. However, these assumptions do not always hold in practical
applications. To tackle this problem, we propose a depth solving system that
fully explores the visual clues from the subtasks in M3OD and generates
multiple estimations for the depth of each target. Since the depth estimations
rely on different assumptions in essence, they present diverse distributions.
Even if some assumptions collapse, the estimations established on the remaining
assumptions are still reliable. In addition, we develop a depth selection and
combination strategy. This strategy is able to remove abnormal estimations
caused by collapsed assumptions, and adaptively combine the remaining
estimations into a single one. In this way, our depth solving system becomes
more precise and robust. Exploiting the clues from multiple subtasks of M3OD
and without introducing any extra information, our method surpasses the current
best method by more than 20% relatively on the Moderate level of test split in
the KITTI 3D object detection benchmark, while still maintaining real-time
efficiency.
- Abstract(参考訳): 本質的に不適切な問題として、単眼画像からの深度推定はモノクロ3Dオブジェクト検出(M3OD)の最も難しい部分である。
既存の手法の多くは、欠落している空間情報を単眼画像に橋渡しし、興味のある対象ごとに単独の深さ値を予測する、事前の仮定に依存している。
しかし、これらの仮定は実用上必ずしも成り立たない。
この問題に対処するために,M3ODのサブタスクから視覚的手がかりを完全に探索し,各ターゲットの深さに対して複数の推定値を生成する深度問題解決システムを提案する。
深さ推定は本質的に異なる仮定に依存するため、様々な分布を示す。
いくつかの仮定が崩壊しても、残りの仮定に基づく推定は依然として信頼できる。
さらに,深度選択と組み合わせ戦略を開発する。
この戦略は、崩壊した仮定による異常な推定を除去し、残りの見積もりを1つに適応的に組み合わせることができる。
このようにして、深度問題解決システムはより正確で堅牢になる。
提案手法は,M3ODの複数のサブタスクからヒントを抽出し,追加情報を導入することなく,KITTI 3Dオブジェクト検出ベンチマークにおけるテスト分割の適度レベルに対して,現在のベストメソッドを20%以上越えながら,リアルタイム効率を維持している。
関連論文リスト
- MonoCD: Monocular 3D Object Detection with Complementary Depths [9.186673054867866]
深度推定は単分子3次元物体検出に不可欠だが挑戦的なサブタスクである。
2つの新しい設計で深度の相補性を高めることを提案する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-04-04T03:30:49Z) - Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - Densely Constrained Depth Estimator for Monocular 3D Object Detection [48.12271792836015]
モノクロ画像から物体の正確な3D位置を推定することは、深さが不足しているため難しい問題である。
任意の方向の端から高密度な射影制約を利用する手法を提案する。
提案手法は, KITTI および WOD ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:24:22Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z) - Categorical Depth Distribution Network for Monocular 3D Object Detection [7.0405916639906785]
モノラル3D検出の重要な課題は、物体の深度を正確に予測することです。
多くの手法は3次元検出を支援するために直接深度を推定しようとするが、深度不正確な結果、限られた性能を示す。
Categorical Depth Distribution Network (CADDN) を提案し、3次元空間の適切な深さ間隔にリッチなコンテキスト特徴情報を投影する。
提案手法をkitti 3d object detection benchmarkで検証し, 単項法のうち1位にランク付けした。
論文 参考訳(メタデータ) (2021-03-01T16:08:29Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。