Fugu-MT 論文翻訳(概要): Multi-Stage CNN-Based Monocular 3D Vehicle Localization and Orientation Estimation

論文の概要: Multi-Stage CNN-Based Monocular 3D Vehicle Localization and Orientation Estimation

arxiv url: http://arxiv.org/abs/2011.12256v1
Date: Tue, 24 Nov 2020 18:01:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 12:52:02.855823
Title: Multi-Stage CNN-Based Monocular 3D Vehicle Localization and Orientation Estimation
Title（参考訳）: マルチステージCNNによる単眼3次元車両位置定位と方位推定
Authors: Ali Babolhavaeji and Mohammad Fanaei
Abstract要約: 本稿では,単眼カメラで撮影した2次元画像から3次元物体検出モデルを構築し,推定した鳥眼視高度マップと物体特徴の深部表現を組み合わせることを目的とする。提案したモデルには、バックエンドネットワークとして事前トレーニングされたResNet-50ネットワークと、さらに3つのブランチがある。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper aims to design a 3D object detection model from 2D images taken by monocular cameras by combining the estimated bird's-eye view elevation map and the deep representation of object features. The proposed model has a pre-trained ResNet-50 network as its backend network and three more branches. The model first builds a bird's-eye view elevation map to estimate the depth of the object in the scene and by using that estimates the object's 3D bounding boxes. We have trained and evaluate it on two major datasets: a syntactic dataset and the KIITI dataset.
Abstract（参考訳）: 本稿では,単眼カメラで撮影した2次元画像から3次元物体検出モデルを構築し,推定した鳥眼視高度マップと物体特徴の深部表現を組み合わせることを目的とする。提案モデルでは、resnet-50ネットワークをバックエンドネットワークとして、さらに3つのブランチを持つ。このモデルはまず、シーン内の物体の深さを推定し、オブジェクトの3dバウンディングボックスを推定するために、バードズ・アイ・ビュー高度マップを構築します。構文データセットとkiitiデータセットの2つの主要なデータセットでトレーニングし、評価しました。

関連論文リスト

VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文参考訳（メタデータ） (2024-04-15T03:12:12Z)
LocaliseBot: Multi-view 3D object localisation with differentiable rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文参考訳（メタデータ） (2023-11-14T14:27:53Z)
OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文参考訳（メタデータ） (2023-01-13T06:02:31Z)
MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-12-13T19:30:03Z)
Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文参考訳（メタデータ） (2022-07-30T01:48:23Z)
OSOP: A Multi-Stage One Shot Object Pose Estimation Framework [35.89334617258322]
対象物検出のための新しいワンショット手法と,対象物に対する訓練を必要としない6DoFポーズ推定を提案する。テスト時には、ターゲット画像とテクスチャ化された3Dクエリモデルを入力する。 The method on LineMOD, Occlusion, Homebrewed, YCB-V and TLESS datasets。
論文参考訳（メタデータ） (2022-03-29T13:12:00Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文参考訳（メタデータ） (2021-02-01T08:18:24Z)
BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文参考訳（メタデータ） (2020-03-09T15:08:40Z)
SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。 SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文参考訳（メタデータ） (2020-02-24T08:15:36Z)
Object Detection on Single Monocular Images through Canonical Correlation Analysis [3.4722706398428493]
点雲や深度画像のような余分な3次元データを用いることなく、単分子画像から3次元オブジェクト情報を検索する。本稿では,単眼画像とそれに対応する深度画像とを融合する2次元CCAフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-13T05:03:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。