論文の概要: Learning Auxiliary Monocular Contexts Helps Monocular 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2112.04628v1
- Date: Thu, 9 Dec 2021 00:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:03:53.957110
- Title: Learning Auxiliary Monocular Contexts Helps Monocular 3D Object
Detection
- Title(参考訳): 3次元物体検出を支援する補助的単眼環境の学習
- Authors: Xianpeng Liu, Nan Xue, Tianfu Wu
- Abstract要約: モノクロ3Dオブジェクト検出は、入力された単一2D画像内の3Dバウンディングボックスをローカライズすることを目的としている。
本稿では, 余分な情報を活用することなく, 単分子物体検出のための簡易かつ効果的な定式化法を提案する。
モノラルな3Dオブジェクト検出を支援するために、トレーニングの補助タスクとしてモノラルなコンテキストを学習するMonoConメソッドを提案する。
- 参考スコア(独自算出の注目度): 15.185462008629848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection aims to localize 3D bounding boxes in an input
single 2D image. It is a highly challenging problem and remains open,
especially when no extra information (e.g., depth, lidar and/or multi-frames)
can be leveraged in training and/or inference. This paper proposes a simple yet
effective formulation for monocular 3D object detection without exploiting any
extra information. It presents the MonoCon method which learns Monocular
Contexts, as auxiliary tasks in training, to help monocular 3D object
detection. The key idea is that with the annotated 3D bounding boxes of objects
in an image, there is a rich set of well-posed projected 2D supervision signals
available in training, such as the projected corner keypoints and their
associated offset vectors with respect to the center of 2D bounding box, which
should be exploited as auxiliary tasks in training. The proposed MonoCon is
motivated by the Cramer-Wold theorem in measure theory at a high level. In
implementation, it utilizes a very simple end-to-end design to justify the
effectiveness of learning auxiliary monocular contexts, which consists of three
components: a Deep Neural Network (DNN) based feature backbone, a number of
regression head branches for learning the essential parameters used in the 3D
bounding box prediction, and a number of regression head branches for learning
auxiliary contexts. After training, the auxiliary context regression branches
are discarded for better inference efficiency. In experiments, the proposed
MonoCon is tested in the KITTI benchmark (car, pedestrain and cyclist). It
outperforms all prior arts in the leaderboard on car category and obtains
comparable performance on pedestrian and cyclist in terms of accuracy. Thanks
to the simple design, the proposed MonoCon method obtains the fastest inference
speed with 38.7 fps in comparisons
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、入力された単一2D画像内の3Dバウンディングボックスをローカライズすることを目的としている。
これは非常に困難な問題であり、特にトレーニングや推論で余分な情報(深さ、ライダー、マルチフレームなど)が利用できない場合、オープンのままである。
本稿では, 余分な情報を生かさずに, 単眼的3次元物体検出のための簡易かつ効果的な定式化を提案する。
モノラルな3Dオブジェクト検出を支援するために、トレーニングの補助タスクとしてモノラルなコンテキストを学習するMonoConメソッドを提案する。
キーとなるアイデアは、画像中のオブジェクトの注釈付き3Dバウンディングボックスによって、投影されたコーナーキーポイントとその関連するオフセットベクトルのようなトレーニングで利用可能な、十分にプロジェクションされた2D監視信号の豊富なセットが2Dバウンディングボックスの中心に対して存在することである。
提案されたMonoConは、高レベルでの測定理論におけるクレイマー・ウォルドの定理によって動機付けられている。
実装では、Deep Neural Network(DNN)ベースの機能バックボーン、3Dバウンディングボックス予測で使用される必須パラメータを学習するためのレグレッションヘッドブランチ、補助コンテキストを学習するためのレグレッションヘッドブランチの3つのコンポーネントからなる、補助的なモノラルコンテキストの学習の有効性を正当化するために、非常に単純なエンドツーエンド設計を使用する。
トレーニング後、補助コンテキスト回帰分岐はより良い推論効率のために破棄される。
実験では、提案するモノコンをkittiベンチマーク(car, pedestrain, cyclist)でテストした。
自動車カテゴリーのリーダーボードですべての先行芸術を上回り、正確性で歩行者やサイクリストに匹敵するパフォーマンスを得る。
単純な設計により、提案するmonocon法は38.7fpsで最速の推論速度を得る。
関連論文リスト
- MonoSKD: General Distillation Framework for Monocular 3D Object
Detection via Spearman Correlation Coefficient [11.48914285491747]
既存のモノクロ3D検出知識蒸留法は、通常、LiDARをイメージプレーンに投射し、それに従って教師ネットワークを訓練する。
本研究では,スピアマン相関係数に基づくモノクル3次元検出のための新しい知識蒸留フレームワークMonoSKDを提案する。
提案フレームワークは,推論計算コストを加算せずに提案するまでの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-17T14:48:02Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。