論文の概要: Learning to Predict the 3D Layout of a Scene
- arxiv url: http://arxiv.org/abs/2011.09977v1
- Date: Thu, 19 Nov 2020 17:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 21:18:08.141055
- Title: Learning to Predict the 3D Layout of a Scene
- Title(参考訳): シーンの3Dレイアウトを予測するための学習
- Authors: Jihao Andreas Lin, Jakob Br\"unker, Daniel F\"ahrmann
- Abstract要約: 本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While 2D object detection has improved significantly over the past, real
world applications of computer vision often require an understanding of the 3D
layout of a scene. Many recent approaches to 3D detection use LiDAR point
clouds for prediction. We propose a method that only uses a single RGB image,
thus enabling applications in devices or vehicles that do not have LiDAR
sensors. By using an RGB image, we can leverage the maturity and success of
recent 2D object detectors, by extending a 2D detector with a 3D detection
head. In this paper we discuss different approaches and experiments, including
both regression and classification methods, for designing this 3D detection
head. Furthermore, we evaluate how subproblems and implementation details
impact the overall prediction result. We use the KITTI dataset for training,
which consists of street traffic scenes with class labels, 2D bounding boxes
and 3D annotations with seven degrees of freedom. Our final architecture is
based on Faster R-CNN. The outputs of the convolutional backbone are fixed
sized feature maps for every region of interest. Fully connected layers within
the network head then propose an object class and perform 2D bounding box
regression. We extend the network head by a 3D detection head, which predicts
every degree of freedom of a 3D bounding box via classification. We achieve a
mean average precision of 47.3% for moderately difficult data, measured at a 3D
intersection over union threshold of 70%, as required by the official KITTI
benchmark; outperforming previous state-of-the-art single RGB only methods by a
large margin.
- Abstract(参考訳): これまで2Dオブジェクト検出は大幅に改善されてきたが、コンピュータビジョンの現実的な応用にはシーンの3Dレイアウトを理解する必要がある。
最近の3d検出では、lidar point cloudが予測に使われている。
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
rgb画像を使用することで、2次元検出器を3d検出ヘッドで拡張することで、最近の2dオブジェクト検出器の成熟度と成功を活用できる。
本稿では,この3次元検出ヘッドを設計するための回帰法と分類法を含む,異なるアプローチと実験について論じる。
さらに,サブプロブレムと実装の詳細が全体の予測結果に与える影響を評価する。
トレーニングにはkittiデータセットを使用し、クラスラベル付きストリートトラフィックシーン、2dバウンディングボックス、3dアノテーションの7自由度で構成されています。
最後のアーキテクチャは、より高速なR-CNNに基づいています。
畳み込みバックボーンの出力は、関心のあるすべての領域に対する固定サイズの特徴マップである。
ネットワークヘッド内の完全な連結層は、オブジェクトクラスを提案し、2Dバウンディングボックスレグレッションを実行する。
ネットワークヘッドを3d検出ヘッドで拡張し、分類によって3dバウンディングボックスのあらゆる自由度を予測する。
公式のkittiベンチマークで要求される3次元交差率70%で測定した中程度に難しいデータに対して平均47.3%の精度を達成し,従来の単一rgb法を大差で上回った。
関連論文リスト
- Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object
Detection without 3D Annotations [0.5439020425819]
本稿では,完全指向の3D境界ボックスを予測しながら,一切の3Dアノテーションを要求しない手法を提案する。
再帰的クロスビュー(Recursive Cross-View, RCV)と呼ばれる手法は, 3次元検出を複数の2次元検出タスクに変換するために3次元原理を利用する。
RCVは、3Dラベルを使わずに完全な3Dボックスを生成する最初の3D検出方法である。
論文 参考訳(メタデータ) (2022-11-14T04:51:05Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。