論文の概要: Poses as Queries: Image-to-LiDAR Map Localization with Transformers
- arxiv url: http://arxiv.org/abs/2305.04298v1
- Date: Sun, 7 May 2023 14:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 16:31:14.500743
- Title: Poses as Queries: Image-to-LiDAR Map Localization with Transformers
- Title(参考訳): クエリとしてのPoses: トランスフォーマーを用いた画像からLiDARマップのローカライゼーション
- Authors: Jinyu Miao, Kun Jiang, Yunlong Wang, Tuopu Wen, Zhongyang Xiao, Zheng
Fu, Mengmeng Yang, Maolin Liu, Diange Yang
- Abstract要約: 商用化による高精度車両のローカライゼーションは、高レベルの自動運転タスクにとって重要な技術である。
このようなクロスモーダルセンサデータ間の対応を見出すことによる推定ポーズは困難である。
本稿では,トランスフォーマーをベースとした新しいニューラルネットワークを提案し,エンドツーエンドで2次元画像を3次元LiDARマップに登録する。
- 参考スコア(独自算出の注目度): 5.704968411509063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-precision vehicle localization with commercial setups is a crucial
technique for high-level autonomous driving tasks. Localization with a
monocular camera in LiDAR map is a newly emerged approach that achieves
promising balance between cost and accuracy, but estimating pose by finding
correspondences between such cross-modal sensor data is challenging, thereby
damaging the localization accuracy. In this paper, we address the problem by
proposing a novel Transformer-based neural network to register 2D images into
3D LiDAR map in an end-to-end manner. Poses are implicitly represented as
high-dimensional feature vectors called pose queries and can be iteratively
updated by interacting with the retrieved relevant information from cross-model
features using attention mechanism in a proposed POse Estimator Transformer
(POET) module. Moreover, we apply a multiple hypotheses aggregation method that
estimates the final poses by performing parallel optimization on multiple
randomly initialized pose queries to reduce the network uncertainty.
Comprehensive analysis and experimental results on public benchmark conclude
that the proposed image-to-LiDAR map localization network could achieve
state-of-the-art performances in challenging cross-modal localization tasks.
- Abstract(参考訳): 商用化による高精度車両のローカライゼーションは、高レベルの自動運転タスクにとって重要な技術である。
LiDARマップにおける単眼カメラによるローカライゼーションは,コストと精度の良好なバランスを実現する新たなアプローチであるが,そのようなクロスモーダルセンサデータの対応を見出すことによるポーズの推定は困難であり,ローカライズ精度を損なう。
本稿では,トランスフォーマーをベースとした新しいニューラルネットワークを提案し,エンドツーエンドで2次元画像を3次元LiDARマップに登録する。
ポーズは、ポーズクエリと呼ばれる高次元特徴ベクトルとして暗黙的に表現され、提案するpose estimator transformer(poet)モジュールにおいて、注意機構を用いて、クロスモデル特徴から検索された関連情報と対話することで反復的に更新される。
さらに,ネットワークの不確実性を低減するために,複数のランダム初期化ポーズクエリに対して並列最適化を行うことにより,最終ポーズを推定する複数の仮説集約手法を適用した。
一般ベンチマークによる包括的解析と実験結果から,提案した画像-LiDARマップローカライゼーションネットワークは,モーダル横断ローカライゼーションタスクに挑戦する上で,最先端のパフォーマンスを実現することができると結論付けた。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - Robust Self-Supervised LiDAR Odometry via Representative Structure
Discovery and 3D Inherent Error Modeling [67.75095378830694]
そこで我々は,2段階のオドメトリ推定ネットワークを構築し,一連の部分領域変換を推定してエゴモーメントを求める。
本稿では,トレーニング,推論,マッピングフェーズにおける信頼できない構造の影響を軽減することを目的とする。
我々の2フレームのオードメトリーは、翻訳/回転誤差の点で、過去の芸術の状態を16%/12%上回っている。
論文 参考訳(メタデータ) (2022-02-27T12:52:27Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。