論文の概要: DID-M3D: Decoupling Instance Depth for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2207.08531v1
- Date: Mon, 18 Jul 2022 11:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:13:58.547952
- Title: DID-M3D: Decoupling Instance Depth for Monocular 3D Object Detection
- Title(参考訳): DID-M3D:モノクロ3次元物体検出のためのインスタンス深さの分離
- Authors: Liang Peng, Xiaopei Wu, Zheng Yang, Haifeng Liu, and Deng Cai
- Abstract要約: 単眼の3D検出は、低コストで設定の単純さのため、コミュニティから多くの注目を集めている。
最も難しいサブタスクは、インスタンスの深さ推定にある。
本稿では,インスタンスの視覚表面深度とインスタンス属性深度の組み合わせにより,インスタンスの深度を再構成する。
- 参考スコア(独自算出の注目度): 34.01288862240829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D detection has drawn much attention from the community due to its
low cost and setup simplicity. It takes an RGB image as input and predicts 3D
boxes in the 3D space. The most challenging sub-task lies in the instance depth
estimation. Previous works usually use a direct estimation method. However, in
this paper we point out that the instance depth on the RGB image is
non-intuitive. It is coupled by visual depth clues and instance attribute
clues, making it hard to be directly learned in the network. Therefore, we
propose to reformulate the instance depth to the combination of the instance
visual surface depth (visual depth) and the instance attribute depth (attribute
depth). The visual depth is related to objects' appearances and positions on
the image. By contrast, the attribute depth relies on objects' inherent
attributes, which are invariant to the object affine transformation on the
image. Correspondingly, we decouple the 3D location uncertainty into visual
depth uncertainty and attribute depth uncertainty. By combining different types
of depths and associated uncertainties, we can obtain the final instance depth.
Furthermore, data augmentation in monocular 3D detection is usually limited due
to the physical nature, hindering the boost of performance. Based on the
proposed instance depth disentanglement strategy, we can alleviate this
problem. Evaluated on KITTI, our method achieves new state-of-the-art results,
and extensive ablation studies validate the effectiveness of each component in
our method. The codes are released at https://github.com/SPengLiang/DID-M3D.
- Abstract(参考訳): 単眼の3D検出は、低コストで設定が簡単であるため、コミュニティから多くの注目を集めている。
rgbイメージを入力として、3d空間内の3dボックスを予測する。
最も難しいサブタスクは、インスタンスの深さ推定である。
先行研究は通常直接推定法を用いる。
しかし,本論文では,RGB画像のインスタンス深度は直観的ではないことを指摘する。
視覚深度ヒントとインスタンス属性ヒントによって結合され、ネットワーク内で直接学習することが困難になる。
そこで本研究では,インスタンス表面深度(視覚深度)とインスタンス属性深度(属性深度)の組み合わせにより,インスタンス深度を再構成する。
視覚深度は、画像上の物体の外観や位置と関連している。
対照的に、属性の深さは、画像上のオブジェクトアフィン変換に不変なオブジェクト固有の属性に依存している。
対応する3次元位置不確かさを視覚深度不確かさと属性深度不確かさに分離する。
異なる種類の深度と関連する不確実性を組み合わせることで、最終的なインスタンス深度を得ることができる。
さらに、単眼3d検出におけるデータ拡張は通常、物理的性質のため制限され、性能向上を阻害する。
提案したインスタンス深度分散戦略に基づき,この問題を緩和することができる。
KITTIの評価により,本手法は新たな最先端の成果を達成し,広範囲にわたるアブレーション研究により,本手法における各成分の有効性が検証された。
コードはhttps://github.com/SPengLiang/DID-M3Dで公開されている。
関連論文リスト
- MonoCD: Monocular 3D Object Detection with Complementary Depths [9.186673054867866]
深度推定は単分子3次元物体検出に不可欠だが挑戦的なサブタスクである。
2つの新しい設計で深度の相補性を高めることを提案する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-04-04T03:30:49Z) - Source-free Depth for Object Pop-out [113.24407776545652]
現代の学習に基づく手法は、野生での推論による有望な深度マップを提供する。
本研究では,オブジェクトの3次元前の「ポップアウト」を用いて,オブジェクトセグメンテーションの深度推定モデルを適用する。
8つのデータセットに対する我々の実験は、性能と一般化性の両方の観点から、我々の方法の利点を一貫して示している。
論文 参考訳(メタデータ) (2022-12-10T21:57:11Z) - Depth Is All You Need for Monocular 3D Detection [29.403235118234747]
教師なしの方法で対象領域に深度表現を合わせることを提案する。
本手法では, トレーニング時間中に利用可能なLiDARやRGBビデオを利用して深度表現を微調整し, 改良された3D検出器を実現する。
論文 参考訳(メタデータ) (2022-10-05T18:12:30Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Predicting Relative Depth between Objects from Semantic Features [2.127049691404299]
2D画像に描かれた物体の3D深度は、そのような特徴の一つです。
この領域における技術の現状は、ステレオ画像データに基づいて訓練された複雑なニューラルネットワークモデルであり、ピクセルごとの深さを予測する。
モノディープスモデルから計算した相対深度に対する相対深度精度の14%の総合的な増加が達成された。
論文 参考訳(メタデータ) (2021-01-12T17:28:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。