論文の概要: "The Pedestrian next to the Lamppost" Adaptive Object Graphs for Better
Instantaneous Mapping
- arxiv url: http://arxiv.org/abs/2204.02944v1
- Date: Wed, 6 Apr 2022 17:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:04:16.062555
- Title: "The Pedestrian next to the Lamppost" Adaptive Object Graphs for Better
Instantaneous Mapping
- Title(参考訳): 「ランプポストの隣の歩行者」適応オブジェクトグラフによる瞬時マッピングの改善
- Authors: Avishkar Saha, Oscar Mendez, Chris Russell, Richard Bowden
- Abstract要約: 1つの画像から意味的に区切られた鳥の目視マップを推定することは、自律的な制御とナビゲーションの一般的な技術となっている。
カメラからの距離による位置推定誤差の増加を示す。
本稿では,物体の空間的推論により,BEV物体を単眼画像から予測するグラフニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 45.94778766867247
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Estimating a semantically segmented bird's-eye-view (BEV) map from a single
image has become a popular technique for autonomous control and navigation.
However, they show an increase in localization error with distance from the
camera. While such an increase in error is entirely expected - localization is
harder at distance - much of the drop in performance can be attributed to the
cues used by current texture-based models, in particular, they make heavy use
of object-ground intersections (such as shadows), which become increasingly
sparse and uncertain for distant objects. In this work, we address these
shortcomings in BEV-mapping by learning the spatial relationship between
objects in a scene. We propose a graph neural network which predicts BEV
objects from a monocular image by spatially reasoning about an object within
the context of other objects. Our approach sets a new state-of-the-art in BEV
estimation from monocular images across three large-scale datasets, including a
50% relative improvement for objects on nuScenes.
- Abstract(参考訳): 1つの画像から意味的に区切られた鳥眼ビュー(BEV)マップを推定することは、自律的な制御とナビゲーションの一般的な技術となった。
しかし,カメラからの距離によって位置推定誤差が増大している。
ローカライゼーションは距離が難しい - パフォーマンスの低下の多くは、現在のテクスチャベースのモデルで使用されている手掛かりによるもので、特に、遠方のオブジェクトではますます希薄で不確実になる、オブジェクトと地面の交差点(影など)を多用している。
本研究では,シーン内の物体間の空間的関係を学習することで,BEVマッピングにおけるこれらの欠点に対処する。
本稿では,他の物体のコンテキスト内の物体を空間的に推論することにより,単眼画像からbev物体を予測するグラフニューラルネットワークを提案する。
提案手法では,3つの大規模データセットにわたる単眼画像からのbev推定において,50%の相対的改善を含む,新たな最先端のbev推定を行う。
関連論文リスト
- VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - Optimizing Ego Vehicle Trajectory Prediction: The Graph Enhancement
Approach [1.3931837019950217]
我々は,空間的関係や物体の均一性を捉える上で,独特なアドバンテージを提供するBird's Eye Viewの視点の利用を提唱する。
我々の研究では、グラフニューラルネットワーク(GNN)と位置符号化を利用して、BEV内のオブジェクトを表現する。
論文 参考訳(メタデータ) (2023-12-20T15:22:34Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z) - BEV-MODNet: Monocular Camera based Bird's Eye View Moving Object
Detection for Autonomous Driving [2.9769485817170387]
CNNは、現場のグローバルコンテキストを活用して、より良いプロジェクトを作成することができる。
我々は、BEV空間内で5つのクラスを移動するオブジェクトマスクのアノテーションを備えた12.9k画像からなる拡張KITTI-rawデータセットを作成する。
簡単なベースライン実装を用いてmIoUの13%の大幅な改善を観測した。
論文 参考訳(メタデータ) (2021-07-11T01:11:58Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。