Fugu-MT 論文翻訳(概要): MoNet3D: Towards Accurate Monocular 3D Object Localization in Real Time

論文の概要: MoNet3D: Towards Accurate Monocular 3D Object Localization in Real Time

arxiv url: http://arxiv.org/abs/2006.16007v1
Date: Mon, 29 Jun 2020 12:48:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 14:03:11.139786
Title: MoNet3D: Towards Accurate Monocular 3D Object Localization in Real Time
Title（参考訳）: MoNet3D: 高精度なモノクロ3Dオブジェクトのリアルタイム局在を目指して
Authors: Xichuan Zhou, Yicong Peng, Chunqiao Long, Fengbo Ren, Cong Shi
Abstract要約: MoNet3Dはモノクロ画像中の各オブジェクトの3D位置を予測し、各オブジェクトの3Dバウンディングボックスを描画する新しいフレームワークである。この手法は27.85FPSのリアルタイム画像処理を実現することができ、組込み先進運転支援システム応用の可能性を示している。
参考スコア（独自算出の注目度）: 15.245372936153277
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monocular multi-object detection and localization in 3D space has been proven to be a challenging task. The MoNet3D algorithm is a novel and effective framework that can predict the 3D position of each object in a monocular image and draw a 3D bounding box for each object. The MoNet3D method incorporates prior knowledge of the spatial geometric correlation of neighbouring objects into the deep neural network training process to improve the accuracy of 3D object localization. Experiments on the KITTI dataset show that the accuracy for predicting the depth and horizontal coordinates of objects in 3D space can reach 96.25\% and 94.74\%, respectively. Moreover, the method can realize the real-time image processing at 27.85 FPS, showing promising potential for embedded advanced driving-assistance system applications. Our code is publicly available at https://github.com/CQUlearningsystemgroup/YicongPeng.
Abstract（参考訳）: 3d空間における単眼的多物体検出と局在化は難しい課題である。 MoNet3Dアルゴリズムは、モノクロ画像中の各オブジェクトの3D位置を予測し、各オブジェクトに対して3Dバウンディングボックスを描画できる、新しく効果的なフレームワークである。 MoNet3D法は、近接する物体の空間幾何学的相関の事前知識をディープニューラルネットワークトレーニングプロセスに組み込んで、3D物体の局在の精度を向上させる。 KITTIデータセットの実験では、3次元空間における物体の深さと水平座標の精度はそれぞれ96.25\%と94.74\%に達することが示されている。さらに,27.85FPSのリアルタイム画像処理を実現し,組込み運転支援システムへの応用の可能性を示した。私たちのコードはhttps://github.com/cqulearningsystemgroup/yicongpengで公開されています。

関連論文リスト

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models [45.008146973701855]
N3D-VLMは、ネイティブな3Dオブジェクト認識と3D認識の視覚的推論をシームレスに統合する新しい統合フレームワークである。 RGB/RGB-D入力からの回答を直接予測する従来のエンドツーエンドモデルとは異なり、本手法はネイティブな3Dオブジェクト認識機能を備えたモデルである。
論文参考訳（メタデータ） (2025-12-18T14:03:44Z)
3DGeoDet: General-purpose Geometry-aware Image-based 3D Object Detection [17.502554516157893]
3DGeoDetは幾何学を意識した新しい3Dオブジェクト検出手法である。屋内および屋外環境では、シングルビューとマルチビューのRGBイメージを効果的に処理する。
論文参考訳（メタデータ） (2025-06-11T09:18:36Z)
Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。 3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文参考訳（メタデータ） (2024-04-10T03:54:53Z)
NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文参考訳（メタデータ） (2023-05-28T16:18:41Z)
Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文参考訳（メタデータ） (2022-07-30T01:48:23Z)
AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。 2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文参考訳（メタデータ） (2021-08-25T08:50:06Z)
MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。提案手法は,KITTIベンチマークの最先端手法より優れている。
論文参考訳（メタデータ） (2021-03-23T15:03:08Z)
Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文参考訳（メタデータ） (2021-02-01T08:18:24Z)
Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文参考訳（メタデータ） (2020-08-31T17:10:48Z)
ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。 ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文参考訳（メタデータ） (2020-03-01T17:18:08Z)
SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。 SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文参考訳（メタデータ） (2020-02-24T08:15:36Z)
DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文参考訳（メタデータ） (2020-01-10T11:44:37Z)
RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文参考訳（メタデータ） (2020-01-10T08:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。