論文の概要: DEVIANT: Depth EquiVarIAnt NeTwork for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2207.10758v1
- Date: Thu, 21 Jul 2022 21:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-07-25 12:45:31.800109
- Title: DEVIANT: Depth EquiVarIAnt NeTwork for Monocular 3D Object Detection
- Title(参考訳): DeVIANT:モノクロ3次元物体検出のための深度EquiVarIAntネトワーク
- Authors: Abhinav Kumar, Garrick Brazil, Enrique Corona, Armin Parchami,
Xiaoming Liu
- Abstract要約: 本稿では、射影多様体における任意の3次元変換に同値な畳み込みに向けての第一歩を踏み出す。
単分子検出における最深度推定は最も難しいため,本論文はDepth EquiVarant NeTwork (DEVIANT)を提案する。
DEVIANT は射影多様体の変換深さに同値であるが、バニラネットワークはそうではない。
- 参考スコア(独自算出の注目度): 20.842771904304136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural networks use building blocks such as convolutions that are
equivariant to arbitrary 2D translations. However, these vanilla blocks are not
equivariant to arbitrary 3D translations in the projective manifold. Even then,
all monocular 3D detectors use vanilla blocks to obtain the 3D coordinates, a
task for which the vanilla blocks are not designed for. This paper takes the
first step towards convolutions equivariant to arbitrary 3D translations in the
projective manifold. Since the depth is the hardest to estimate for monocular
detection, this paper proposes Depth EquiVarIAnt NeTwork (DEVIANT) built with
existing scale equivariant steerable blocks. As a result, DEVIANT is
equivariant to the depth translations in the projective manifold whereas
vanilla networks are not. The additional depth equivariance forces the DEVIANT
to learn consistent depth estimates, and therefore, DEVIANT achieves
state-of-the-art monocular 3D detection results on KITTI and Waymo datasets in
the image-only category and performs competitively to methods using extra
information. Moreover, DEVIANT works better than vanilla networks in
cross-dataset evaluation. Code and models at
https://github.com/abhi1kumar/DEVIANT
- Abstract(参考訳): 現代のニューラルネットワークでは、任意の2d変換に同値な畳み込みなどのビルディングブロックを使用する。
しかし、これらのバニラブロックは射影多様体の任意の3次元変換に同値ではない。
それでも、すべての単眼の3d検出器はバニラブロックを使用して3d座標を得る。
本稿では、射影多様体内の任意の3d変換に同変する畳み込みへの第一歩を取り上げる。
単分子検出における深度は最も推定が難しいため, 既設のスケール同変ステアブルブロックを用いたDepth EquiVarant NeTwork (DEVIANT)を提案する。
その結果、DEVIANT は射影多様体の深さ変換に同値であるが、バニラネットワークはそうではない。
追加の深度均等性により、DeVIANTは一貫した深度推定を学習せざるを得なくなるため、DVIANTは画像のみのカテゴリにおいて、KITTIおよびWaymoデータセットの最先端のモノクル3D検出結果を達成し、余分な情報を用いた手法と競合する。
さらに、DEVIANTはデータ間の評価においてバニラネットワークよりも優れている。
https://github.com/abhi1kumar/DEVIANTのコードとモデル
関連論文リスト
- Learning A Zero-shot Occupancy Network from Vision Foundation Models via Self-supervised Adaptation [41.98740330990215]
本研究は,2次元視覚基礎モデルと3次元タスクをブリッジする新しい手法を提案する。
視覚言語モデルのゼロショット機能を画像意味論に活用する。
我々は、再構成されたメートル法深度を用いて意味を3次元空間に投影し、3次元の監視を行う。
論文 参考訳(メタデータ) (2025-03-10T09:54:40Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - OBMO: One Bounding Box Multiple Objects for Monocular 3D Object
Detection [24.9579490539696]
単分子3D物体検出は、単純な構成のため、多くの注目を集めている。
本稿では,単眼画像の異常な性質が奥行きの曖昧さに繋がることを見出した。
We propose a plug-and-play module, underlineOne underlineBounding Box underlineMultiple underlineObjects (OBMO)。
論文 参考訳(メタデータ) (2022-12-20T07:46:49Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - ConDor: Self-Supervised Canonicalization of 3D Pose for Partial Shapes [55.689763519293464]
ConDorは、完全および部分的な3次元点雲の3次元配向と位置を正準化することを学ぶ自己教師型手法である。
推測中,本手法は任意のポーズで完全あるいは部分的な3次元点の雲を抽出し,同変正則のポーズを出力する。
論文 参考訳(メタデータ) (2022-01-19T18:57:21Z) - Asymmetric 3D Context Fusion for Universal Lesion Detection [55.61873234187917]
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
論文 参考訳(メタデータ) (2021-09-17T16:25:10Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - NeMo: Neural Mesh Models of Contrastive Features for Robust 3D Pose
Estimation [11.271053492520535]
3Dポーズ推定はコンピュータビジョンにおいて難しいが重要な課題である。
3次元ポーズ推定に対する標準的なディープラーニングアプローチは、オブジェクトが部分的に隠されたり、これまで見えなかったポーズから見える場合、堅牢ではないことを示す。
我々は,ディープニューラルネットワークとオブジェクトの3次元生成表現を,NeMoと呼ぶ統一ニューラルアーキテクチャに統合することを提案する。
論文 参考訳(メタデータ) (2021-01-29T03:23:12Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。