論文の概要: You Only Look Bottom-Up for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2401.15319v1
- Date: Sat, 27 Jan 2024 06:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:51:53.922460
- Title: You Only Look Bottom-Up for Monocular 3D Object Detection
- Title(参考訳): モノクロ3Dオブジェクト検出のためのボトムアップ
- Authors: Kaixin Xiong, Dingyuan Zhang, Dingkang Liang, Zhe Liu, Hongcheng Yang,
Wondimu Dikubab, Jianwei Cheng, Xiang Bai
- Abstract要約: モノクロ3次元物体検出は自律運転に不可欠な課題である。
既存の画像ベース手法の多くは、画像平面上の2次元サイズに基づいて、オブジェクトの位置を3次元空間で推測する。
本稿では,画像特徴列からの位置モデリングについて検討し,YOLOBU(You Only Look Bottum-Up)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 43.858564813856646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D Object Detection is an essential task for autonomous driving.
Meanwhile, accurate 3D object detection from pure images is very challenging
due to the loss of depth information. Most existing image-based methods infer
objects' location in 3D space based on their 2D sizes on the image plane, which
usually ignores the intrinsic position clues from images, leading to
unsatisfactory performances. Motivated by the fact that humans could leverage
the bottom-up positional clues to locate objects in 3D space from a single
image, in this paper, we explore the position modeling from the image feature
column and propose a new method named You Only Look Bottum-Up (YOLOBU).
Specifically, our YOLOBU leverages Column-based Cross Attention to determine
how much a pixel contributes to pixels above it. Next, the Row-based Reverse
Cumulative Sum (RRCS) is introduced to build the connections of pixels in the
bottom-up direction. Our YOLOBU fully explores the position clues for monocular
3D detection via building the relationship of pixels from the bottom-up way.
Extensive experiments on the KITTI dataset demonstrate the effectiveness and
superiority of our method.
- Abstract(参考訳): モノクロ3次元物体検出は自律運転に不可欠な課題である。
一方、深度情報を失うため、純粋な画像からの正確な3dオブジェクト検出は非常に困難である。
既存の画像ベース手法の多くは、画像平面上の2dサイズに基づいて物体の位置を3d空間で推定するが、画像から固有の位置の手がかりを無視し、不十分な性能をもたらす。
本稿では,人間はボトムアップの位置の手がかりを利用して物体を1枚の画像から3d空間に配置できるという事実に動機づけられ,画像特徴列からの位置モデルを探索し,ボトムアップ(yolobu)と呼ばれる新しい手法を提案する。
具体的には、私たちのYOLOBUはカラムベースのCross Attentionを利用して、その上のピクセルにどれだけのピクセルが寄与するかを判断します。
次に,Row-based Reverse Cumulative Sum (RRCS)を導入し,ボトムアップ方向に画素の接続を構築する。
我々のYOLOBUは、ボトムアップ方式で画素の関係を構築することによって、モノクル3D検出のための位置手がかりをフルに探索する。
KITTIデータセットの大規模な実験により,本手法の有効性と優位性を示した。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - OCM3D: Object-Centric Monocular 3D Object Detection [35.804542148335706]
モノクロ3次元物体検出のための新しい物体中心ボクセル表現を提案する。
具体的には、各オブジェクトの提案に基づいてボクセルを構築し、それらのサイズは点の3次元空間分布によって適応的に決定される。
本手法は、最先端の手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2021-04-13T09:15:40Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - 3D Object Detection Method Based on YOLO and K-Means for Image and Point
Clouds [1.9458156037869139]
ライダーに基づく3Dオブジェクト検出と分類タスクは、自動運転に不可欠である。
本稿では,点雲と画像に基づく3次元物体検出手法を提案する。
論文 参考訳(メタデータ) (2020-04-21T04:32:36Z) - YOLO and K-Means Based 3D Object Detection Method on Image and Point
Cloud [1.9458156037869139]
ライダーに基づく3Dオブジェクト検出と分類タスクは、自動走行に不可欠である。
本論文は三部構成である。
カメラは、この画像をキャプチャしてリアルタイム2Dオブジェクト検出を行うことができる。
3Dポイントから転送される2D座標がオブジェクトバウンディングボックス内にあるか否かを比較し、k平均クラスタリングを行うことでGPUにおける高速な3Dオブジェクト認識機能を実現することができる。
論文 参考訳(メタデータ) (2020-04-21T03:08:46Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。