論文の概要: Geometry Uncertainty Projection Network for Monocular 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2107.13774v1
- Date: Thu, 29 Jul 2021 06:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:17:31.986679
- Title: Geometry Uncertainty Projection Network for Monocular 3D Object
Detection
- Title(参考訳): 単眼3次元物体検出のための幾何不確かさ投影ネットワーク
- Authors: Yan Lu, Xinzhu Ma, Lei Yang, Tianzhu Zhang, Yating Liu, Qi Chu, Junjie
Yan and Wanli Ouyang
- Abstract要約: 本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
- 参考スコア(独自算出の注目度): 138.24798140338095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometry Projection is a powerful depth estimation method in monocular 3D
object detection. It estimates depth dependent on heights, which introduces
mathematical priors into the deep model. But projection process also introduces
the error amplification problem, in which the error of the estimated height
will be amplified and reflected greatly at the output depth. This property
leads to uncontrollable depth inferences and also damages the training
efficiency. In this paper, we propose a Geometry Uncertainty Projection Network
(GUP Net) to tackle the error amplification problem at both inference and
training stages. Specifically, a GUP module is proposed to obtains the
geometry-guided uncertainty of the inferred depth, which not only provides high
reliable confidence for each depth but also benefits depth learning.
Furthermore, at the training stage, we propose a Hierarchical Task Learning
strategy to reduce the instability caused by error amplification. This learning
algorithm monitors the learning situation of each task by a proposed indicator
and adaptively assigns the proper loss weights for different tasks according to
their pre-tasks situation. Based on that, each task starts learning only when
its pre-tasks are learned well, which can significantly improve the stability
and efficiency of the training process. Extensive experiments demonstrate the
effectiveness of the proposed method. The overall model can infer more reliable
object depth than existing methods and outperforms the state-of-the-art
image-based monocular 3D detectors by 3.74% and 4.7% AP40 of the car and
pedestrian categories on the KITTI benchmark.
- Abstract(参考訳): 幾何射影は単眼3次元物体検出における強力な深さ推定法である。
高度に依存する深さを推定し、深度モデルに数学的先行性を導入する。
しかし、プロジェクションプロセスは、推定高さの誤差を増幅し、出力深さに大きく反映する誤差増幅問題も導入する。
この性質は制御不能な深さ推定をもたらし、訓練効率を損なう。
本稿では,推論とトレーニングの両方において,誤り増幅問題に取り組むための幾何不確かさ投影ネットワーク(gup net)を提案する。
具体的には,各深さに対して高い信頼度を与えるだけでなく,奥行き学習にも有効となる,推定深さの幾何学的導出の不確かさを求めるgupモジュールを提案する。
さらに,学習段階では,誤り増幅による不安定性を低減するための階層的タスク学習戦略を提案する。
本学習アルゴリズムは、提案する指標により各タスクの学習状況を監視し、各タスクの適切な損失重みを、そのプレタスク状況に応じて適応的に割り当てる。
それに基づいて、各タスクは、事前タスクがうまく学習された場合にのみ学習を開始し、トレーニングプロセスの安定性と効率を大幅に向上させることができる。
大規模実験により提案手法の有効性が示された。
全体的なモデルでは、既存の方法よりも信頼性の高い物体深度を推定でき、KITTIベンチマークの車と歩行者のカテゴリーの3.74%と4.7%のAP40で最先端のイメージベースのモノクロ3D検出器より優れている。
関連論文リスト
- Toward Accurate Camera-based 3D Object Detection via Cascade Depth
Estimation and Calibration [20.82054596017465]
最近の3次元物体検出は、画像から3次元特徴空間への変換の精度によって制限されている。
本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:21:26Z) - Depth-discriminative Metric Learning for Monocular 3D Object Detection [14.554132525651868]
本稿では,視覚的属性に関係なく,モデルが深度識別的特徴を抽出することを奨励する新しい計量学習手法を提案する。
本手法は, 各種ベースラインの性能を平均23.51%, 5.78%向上させる。
論文 参考訳(メタデータ) (2024-01-02T07:34:09Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - GUPNet++: Geometry Uncertainty Propagation Network for Monocular 3D
Object Detection [95.8940731298518]
我々はGUPNet++(Geometry Uncertainty Propagation Network)を提案する。
トレーニング中の幾何射影の不確実性伝播関係をモデル化し、エンドツーエンドのモデル学習の安定性と効率を向上させる。
実験により,提案手法は画像ベースモノクロ3次元検出におけるSOTA性能を得るだけでなく,簡易なフレームワークで有効性を示す。
論文 参考訳(メタデータ) (2023-10-24T08:45:15Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Variational Monocular Depth Estimation for Reliability Prediction [12.951621755732544]
教師付き学習手法の代替として,単眼深度推定のための自己教師付き学習が広く研究されている。
従来はモデル構造の変更による深度推定の精度向上に成功している。
本稿では, 単眼深度推定のための変分モデルを理論的に定式化し, 推定深度画像の信頼性を推定する。
論文 参考訳(メタデータ) (2020-11-24T06:23:51Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。