論文の概要: Consistency of Implicit and Explicit Features Matters for Monocular 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2207.07933v1
- Date: Sat, 16 Jul 2022 13:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:40:48.690427
- Title: Consistency of Implicit and Explicit Features Matters for Monocular 3D
Object Detection
- Title(参考訳): 単眼3次元物体検出における暗黙的特徴と明示的特徴の一致
- Authors: Qian Ye, Ling Jiang, Yuyang Du
- Abstract要約: モノクロ3D物体検出は、低コストの自律エージェントが周囲を知覚する一般的な解決策である。
本報告では,3次元表現における暗黙的特徴と明示的特徴の相違を解消するために,第1の配向認識画像バックボーンを用いたCIEFを提案する。
CIEFは、提出時にKITTIの3DおよびBEV検出ベンチマークで報告されたすべての手法の中で、第1位にランクされた。
- 参考スコア(独自算出の注目度): 4.189643331553922
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular 3D object detection is a common solution for low-cost autonomous
agents to perceive their surrounding environment. Monocular detection has
progressed into two categories: (1)Direct methods that infer 3D bounding boxes
directly from a frontal-view image; (2)3D intermedia representation methods
that map image features to 3D space for subsequent 3D detection. The second
category is standing out not only because 3D detection forges ahead at the
mercy of more meaningful and representative features, but because of emerging
SOTA end-to-end prediction and planning paradigms that require a
bird's-eye-view feature map from a perception pipeline. However, in
transforming to 3D representation, these methods do not guarantee that objects'
implicit orientations and locations in latent space are consistent with those
explicitly observed in Euclidean space, which will hurt model performance.
Hence, we argue that the consistency of implicit and explicit features matters
and present a novel monocular detection method, named CIEF, with the first
orientation-aware image backbone to eliminate the disparity of implicit and
explicit features in subsequent 3D representation. As a second contribution, we
introduce a ray attention mechanism. In contrast to previous methods that
repeat features along the projection ray or rely on another intermedia frustum
point cloud, we directly transform image features to voxel representations with
well-localized features. We also propose a handcrafted gaussian positional
encoding function that outperforms the sinusoidal encoding function but
maintains the benefit of being continuous. CIEF ranked 1st among all reported
methods on both 3D and BEV detection benchmark of KITTI at submission time.
- Abstract(参考訳): 単眼3次元物体検出は、低コストの自律エージェントが周囲の環境を知覚するための一般的なソリューションである。
モノキュラー検出は,(1)フロントビュー画像から直接3dバウンディングボックスを推定する直接法,(2)画像特徴を3d空間にマッピングしてその後の3d検出を行う3dメディア表現法,の2つのカテゴリに分類されている。
第2のカテゴリは、より有意義で代表的な特徴の慈悲に3D検出が前進するだけでなく、認識パイプラインから鳥の目視の特徴マップを必要とする、SOTAのエンドツーエンド予測と計画パラダイムの出現によって注目されている。
しかし、3D表現への変換において、これらの手法はオブジェクトの暗黙の向きや潜在空間の位置がユークリッド空間で明示的に観察されるものと一致していることを保証するものではない。
したがって、暗黙的特徴と明示的特徴の一貫性が重要であり、それに続く3次元表現における暗黙的特徴と明示的特徴の相違をなくすための最初の方向認識画像バックボーンを備えた、新しい単眼的検出法であるciefを提案する。
第2の貢献として,レイアテンション機構を紹介する。
投影線に沿って特徴を繰り返したり、別の中間フラストム点クラウドに依存したりする従来の手法とは対照的に、画像特徴を局所化された特徴を持つボクセル表現に直接変換する。
また, 正弦波符号化関数よりも優れているが, 連続性が維持できる手作りガウス位置符号化関数を提案する。
CIEFは、提出時にKITTIの3DおよびBEV検出ベンチマークで報告されたすべての手法の中で、第1位であった。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。