論文の概要: Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training
- arxiv url: http://arxiv.org/abs/2009.00764v1
- Date: Wed, 2 Sep 2020 00:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:11:16.256486
- Title: Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training
- Title(参考訳): 幾何制約埋め込みと半教師付きトレーニングによる単眼3次元検出
- Authors: Peixuan Li
- Abstract要約: 我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a novel single-shot and keypoints-based framework
for monocular 3D objects detection using only RGB images, called KM3D-Net. We
design a fully convolutional model to predict object keypoints, dimension, and
orientation, and then combine these estimations with perspective geometry
constraints to compute position attribute. Further, we reformulate the
geometric constraints as a differentiable version and embed it into the network
to reduce running time while maintaining the consistency of model outputs in an
end-to-end fashion. Benefiting from this simple structure, we then propose an
effective semi-supervised training strategy for the setting where labeled
training data is scarce. In this strategy, we enforce a consensus prediction of
two shared-weights KM3D-Net for the same unlabeled image under different input
augmentation conditions and network regularization. In particular, we unify the
coordinate-dependent augmentations as the affine transformation for the
differential recovering position of objects and propose a keypoints-dropout
module for the network regularization. Our model only requires RGB images
without synthetic data, instance segmentation, CAD model, or depth generator.
Nevertheless, extensive experiments on the popular KITTI 3D detection dataset
indicate that the KM3D-Net surpasses all previous state-of-the-art methods in
both efficiency and accuracy by a large margin. And also, to the best of our
knowledge, this is the first time that semi-supervised learning is applied in
monocular 3D objects detection. We even surpass most of the previous fully
supervised methods with only 13\% labeled data on KITTI.
- Abstract(参考訳): そこで本研究では,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクロ3Dオブジェクト検出のための,シングルショットとキーポイントに基づく新しいフレームワークを提案する。
対象のキーポイント、次元、方向を予測するために、完全畳み込みモデルを設計し、これらの推定と視点幾何制約を組み合わせて位置属性を計算する。
さらに、幾何的制約を微分可能なバージョンとして再構成し、それをネットワークに埋め込んで、エンドツーエンドでモデル出力の一貫性を維持しながら実行時間を短縮する。
この簡単な構造から,ラベル付きトレーニングデータが不足した環境での効果的な半教師付きトレーニング戦略を提案する。
この戦略では、異なる入力拡張条件下で同じラベル付き画像に対して、2つの共有重み付きKM3D-Netのコンセンサス予測を行う。
特に、オブジェクトの差分回復位置に対するアフィン変換として座標依存拡張を統一し、ネットワーク正規化のためのキーポイントドロップアウトモジュールを提案する。
我々のモデルは、合成データ、インスタンスセグメンテーション、CADモデル、深度ジェネレータのないRGB画像のみを必要とする。
それでも、KITTIの一般的な3D検出データセットに関する広範な実験は、KM3D-Netが従来の最先端の手法を、効率と精度の両方で大きく上回っていることを示している。
また、私たちの知る限りでは、半教師付き学習が単眼の3dオブジェクト検出に適用されるのはこれが初めてです。
KITTIのラベル付きデータだけで、これまで完全に教師された手法のほとんどを上回りました。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Next-best-view Regression using a 3D Convolutional Neural Network [0.9449650062296823]
本論文では,次のベストビュー問題に対するデータ駆動アプローチを提案する。
提案手法は、次のベストビューのbtxtpositionを抑えるために、以前の再構成で3D畳み込みニューラルネットワークを訓練する。
提案手法を2つの実験グループを用いて検証した。
論文 参考訳(メタデータ) (2021-01-23T01:50:26Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Single-Shot 3D Detection of Vehicles from Monocular RGB Images via
Geometry Constrained Keypoints in Real-Time [6.82446891805815]
単眼RGB画像における車両検出のための新しい3次元単発物体検出法を提案する。
提案手法は,3次元空間への2次元検出を付加回帰および分類パラメータの予測により引き上げる。
KITTI 3D Object Detection と新しい nuScenes Object Detection ベンチマークを用いて,自律走行のための異なるデータセットに対するアプローチを検証し,その評価を行った。
論文 参考訳(メタデータ) (2020-06-23T15:10:19Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。