論文の概要: Exploring the Capabilities and Limits of 3D Monocular Object Detection
-- A Study on Simulation and Real World Data
- arxiv url: http://arxiv.org/abs/2005.07424v1
- Date: Fri, 15 May 2020 09:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:26:25.247065
- Title: Exploring the Capabilities and Limits of 3D Monocular Object Detection
-- A Study on Simulation and Real World Data
- Title(参考訳): 3次元単眼物体検出の能力と限界を探る -シミュレーションと実世界データに関する研究-
- Authors: Felix Nobis, Fabian Brunhuber, Simon Janssen, Johannes Betz and Markus
Lienkamp
- Abstract要約: 単眼カメラデータに基づく3次元物体検出が自動運転の鍵となる。
近年のディープラーニング手法は, 単一の画像から深度情報を復元する有望な結果を示す。
本稿では,深度推定の異なるパラメータ化が可能な3次元物体検出パイプラインの性能評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection based on monocular camera data is a key enabler for
autonomous driving. The task however, is ill-posed due to lack of depth
information in 2D images. Recent deep learning methods show promising results
to recover depth information from single images by learning priors about the
environment. Several competing strategies tackle this problem. In addition to
the network design, the major difference of these competing approaches lies in
using a supervised or self-supervised optimization loss function, which require
different data and ground truth information. In this paper, we evaluate the
performance of a 3D object detection pipeline which is parameterizable with
different depth estimation configurations. We implement a simple distance
calculation approach based on camera intrinsics and 2D bounding box size, a
self-supervised, and a supervised learning approach for depth estimation.
Ground truth depth information cannot be recorded reliable in real world
scenarios. This shifts our training focus to simulation data. In simulation,
labeling and ground truth generation can be automatized. We evaluate the
detection pipeline on simulator data and a real world sequence from an
autonomous vehicle on a race track. The benefit of simulation training to real
world application is investigated. Advantages and drawbacks of the different
depth estimation strategies are discussed.
- Abstract(参考訳): 単眼カメラデータに基づく3次元物体検出は、自動運転の重要な実現手段である。
しかし,2次元画像の深度情報がないため,この課題は不十分である。
近年の深層学習手法は,環境に関する事前学習により,単一の画像から深部情報を復元する有望な結果を示す。
いくつかの競合戦略がこの問題に対処している。
ネットワーク設計に加えて、これらの競合するアプローチの大きな違いは、異なるデータと基底真理情報を必要とする教師付きまたは自己監督型の最適化損失関数を使用することである。
本稿では,深度推定構成の異なるパラメータ化可能な3次元物体検出パイプラインの性能評価を行う。
カメラ内在性と2次元境界ボックスサイズ,自己教師あり,奥行き推定のための教師付き学習手法に基づく簡易な距離計算手法を実装した。
地上の真理深度情報は、現実のシナリオでは記録できない。
これはトレーニングの焦点をシミュレーションデータにシフトさせます。
シミュレーションでは、ラベル付けと基底真理生成を自動化できる。
シミュレーションデータによる検出パイプラインと、レーストラック上の自律走行車からの実世界シーケンスを評価する。
実世界応用へのシミュレーショントレーニングの利点について検討した。
異なる深さ推定手法の利点と欠点について論じる。
関連論文リスト
- Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。
我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。
本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文 参考訳(メタデータ) (2024-04-18T17:37:53Z) - Motion Degeneracy in Self-supervised Learning of Elevation Angle
Estimation for 2D Forward-Looking Sonar [4.683630397028384]
本研究は, 合成画像を用いた事前学習を行なわずに, 高度角推定の安定な自己教師付き学習を実現することを目的とする。
まず,主監督信号に関連する2次元前方ソナーの運動場を解析する。
論文 参考訳(メタデータ) (2023-07-30T08:06:11Z) - FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth
Prediction for Autonomous Driving [18.02943016671203]
本研究では,自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。
特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。
FSNetを使えば、ロボットや車両は1台のカメラしか持たず、訓練用画像フレームやカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。
論文 参考訳(メタデータ) (2023-04-21T03:17:04Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - 3D Object Detection with a Self-supervised Lidar Scene Flow Backbone [10.341296683155973]
本稿では,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。
我々の主な貢献は、学習の流れと動きの表現を活用し、自己教師付きバックボーンと3D検出ヘッドを組み合わせることである。
KITTIとnuScenesベンチマークの実験により、提案した自己教師付き事前学習は3次元検出性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-05-02T07:53:29Z) - RealNet: Combining Optimized Object Detection with Information Fusion
Depth Estimation Co-Design Method on IoT [2.9275056713717285]
本稿では,モデル流線形認識アルゴリズム,深度推定アルゴリズム,情報融合を組み合わせた共同設計手法を提案する。
本稿では,リアルタイム要求の高いモバイルプラットフォームに適した手法を提案する。
論文 参考訳(メタデータ) (2022-04-24T08:35:55Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。