論文の概要: Depth from Camera Motion and Object Detection
- arxiv url: http://arxiv.org/abs/2103.01468v1
- Date: Tue, 2 Mar 2021 04:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:04:03.342097
- Title: Depth from Camera Motion and Object Detection
- Title(参考訳): カメラモーションからの深さと物体検出
- Authors: Brent A. Griffin and Jason J. Corso
- Abstract要約: 本稿では,カメラの動きの測定値から検出対象の深さを推定する学習の問題に対処する。
これを実現するために,1) 境界ボックスの一般化表現と非校正カメラの動きを用いてオブジェクトの深さを推定するリカレントニューラルネットワーク(DBox)を設計する。
odmdベンチマークに加えて、他の単眼アプリケーションドメインにおけるdboxを評価し、既存の運転およびロボティクスベンチマークで最先端の結果を達成し、カメラフォンを用いてオブジェクトの深さを推定する。
- 参考スコア(独自算出の注目度): 46.19287527375733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of learning to estimate the depth of
detected objects given some measurement of camera motion (e.g., from robot
kinematics or vehicle odometry). We achieve this by 1) designing a recurrent
neural network (DBox) that estimates the depth of objects using a generalized
representation of bounding boxes and uncalibrated camera movement and 2)
introducing the Object Depth via Motion and Detection Dataset (ODMD). ODMD
training data are extensible and configurable, and the ODMD benchmark includes
21,600 examples across four validation and test sets. These sets include mobile
robot experiments using an end-effector camera to locate objects from the YCB
dataset and examples with perturbations added to camera motion or bounding box
data. In addition to the ODMD benchmark, we evaluate DBox in other monocular
application domains, achieving state-of-the-art results on existing driving and
robotics benchmarks and estimating the depth of objects using a camera phone.
- Abstract(参考訳): 本稿では, カメラ動作の測定値から検出対象の深さを推定する学習(例えば, ロボット運動学や車体計測学など)の課題に対処する。
1)境界ボックスとアンキャリブレーションカメラの動きの一般化された表現を用いてオブジェクトの深さを推定するリカレントニューラルネットワーク(DBox)を設計し、2)モーションおよび検出データセット(ODMD)を介してオブジェクト深さを導入する。
ODMDトレーニングデータは拡張可能で構成可能であり、ODMDベンチマークには4つの検証とテストセットにわたる21,600の例が含まれている。
これらのセットには、エンドエフェクタカメラを使用してYCBデータセットからオブジェクトを見つけるモバイルロボット実験や、カメラの動きやバウンディングボックスデータに摂動を加えた例が含まれる。
odmdベンチマークに加えて、他の単眼アプリケーションドメインにおけるdboxを評価し、既存の運転およびロボティクスベンチマークで最先端の結果を達成し、カメラフォンを用いてオブジェクトの深さを推定する。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - DepthMOT: Depth Cues Lead to a Strong Multi-Object Tracker [4.65004369765875]
各オブジェクトを正確に区別することは、MOTアルゴリズムの基本的な目標である。
本稿では, (i) シーン深度マップのテクトitend-to-endの検出と推定, (ii) カメラのポーズ推定により不規則なカメラの動きを補正するtextitDepthMOTを提案する。
論文 参考訳(メタデータ) (2024-04-08T13:39:12Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。
まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。
次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文 参考訳(メタデータ) (2023-02-17T15:26:04Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Learning Object Depth from Camera Motion and Video Object Segmentation [43.81711115175958]
本稿では,カメラの動きを測定することによって,分割対象の深度を推定する学習の課題に対処する。
我々は、カメラとオブジェクト間の距離の変化に対してスケールされた人工的なオブジェクトセグメンテーションを作成し、そのネットワークは、セグメンテーションエラーがあっても、オブジェクトの深さを推定することを学ぶ。
ロボットカメラを用いて、YCBデータセットから物体を検知するためのアプローチと、運転中の障害物を見つけるための車両カメラとのアプローチを実証する。
論文 参考訳(メタデータ) (2020-07-11T03:50:57Z) - YCB-M: A Multi-Camera RGB-D Dataset for Object Recognition and 6DoF Pose
Estimation [2.9972063833424216]
7つの異なる3Dカメラで撮影され、合計49,294フレームで撮影された32のシーンのデータセットを提示する。
これにより、使用するカメラの仕様に対するポーズ推定アルゴリズムの感度を評価することができる。
論文 参考訳(メタデータ) (2020-04-24T11:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。