論文の概要: Deep Camera Pose Regression Using Pseudo-LiDAR
- arxiv url: http://arxiv.org/abs/2203.00080v1
- Date: Mon, 28 Feb 2022 20:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:28:37.906764
- Title: Deep Camera Pose Regression Using Pseudo-LiDAR
- Title(参考訳): Pseudo-LiDARを用いたディープカメラポース回帰
- Authors: Ali Raza, Lazar Lolic, Shahmir Akhter, Alfonso Dela Cruz, Michael Liut
- Abstract要約: 我々は、奥行きマップを擬似LiDAR信号に変換することが、カメラのローカライゼーションタスクのより良い表現であることを示す。
擬似LiDARを用いて6DOFカメラのポーズを復元する新しいアーキテクチャであるFusionLocを提案する。
- 参考スコア(独自算出の注目度): 1.5959408994101303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An accurate and robust large-scale localization system is an integral
component for active areas of research such as autonomous vehicles and
augmented reality. To this end, many learning algorithms have been proposed
that predict 6DOF camera pose from RGB or RGB-D images. However, previous
methods that incorporate depth typically treat the data the same way as RGB
images, often adding depth maps as additional channels to RGB images and
passing them through convolutional neural networks (CNNs). In this paper, we
show that converting depth maps into pseudo-LiDAR signals, previously shown to
be useful for 3D object detection, is a better representation for camera
localization tasks by projecting point clouds that can accurately determine
6DOF camera pose. This is demonstrated by first comparing localization
accuracies of a network operating exclusively on pseudo-LiDAR representations,
with networks operating exclusively on depth maps. We then propose FusionLoc, a
novel architecture that uses pseudo-LiDAR to regress a 6DOF camera pose.
FusionLoc is a dual stream neural network, which aims to remedy common issues
with typical 2D CNNs operating on RGB-D images. The results from this
architecture are compared against various other state-of-the-art deep pose
regression implementations using the 7 Scenes dataset. The findings are that
FusionLoc performs better than a number of other camera localization methods,
with a notable improvement being, on average, 0.33m and 4.35{\deg} more
accurate than RGB-D PoseNet. By proving the validity of using pseudo-LiDAR
signals over depth maps for localization, there are new considerations when
implementing large-scale localization systems.
- Abstract(参考訳): 高精度でロバストな大規模ローカライゼーションシステムは、自動運転車や拡張現実といった研究の活発な領域に不可欠な要素である。
この目的のために、RGBまたはRGB-D画像から6DOFカメラのポーズを予測する多くの学習アルゴリズムが提案されている。
しかし、ディープを組み込んだ従来の方法は、通常、RGBイメージと同じ方法でデータを扱い、しばしば深度マップをRGBイメージに追加のチャネルとして追加し、畳み込みニューラルネットワーク(CNN)に渡す。
本稿では,従来3次元物体検出に有用であった擬似LiDAR信号への深度マップの変換が,6DOFカメラのポーズを正確に決定できる点雲を投影することで,カメラのローカライゼーションタスクのより良い表現であることを示す。
これはまず、擬似LiDAR表現のみで動作するネットワークのローカライズ精度と、深度マップのみで動作するネットワークを比較した。
次に、疑似LiDARを使って6DOFカメラのポーズを回帰する新しいアーキテクチャFusionLocを提案する。
FusionLocはデュアルストリームニューラルネットワークで、RGB-Dイメージで動作する典型的な2D CNNの一般的な問題を改善することを目的としている。
このアーキテクチャの結果は、7シーンのデータセットを使用して、さまざまな最先端のディープポーズ回帰実装と比較される。
その結果、fusionlocは他の多くのカメラローカライズ法よりも性能が良く、rgb-d posenetよりも平均 0.33m と 4.35{\deg} の精度が向上した。
深度マップ上での擬似LiDAR信号のローカライゼーションの有効性を証明することによって,大規模ローカライゼーションシステムの実装において新たな考察がなされた。
関連論文リスト
- Splat-SLAM: Globally Optimized RGB-only SLAM with 3D Gaussians [87.48403838439391]
3D Splattingは、RGBのみの高密度SLAMの幾何学と外観の強力な表現として登場した。
本稿では,高密度な3次元ガウス写像表現を持つRGBのみのSLAMシステムを提案する。
Replica、TUM-RGBD、ScanNetのデータセットに対する実験は、グローバルに最適化された3Dガウスの有効性を示している。
論文 参考訳(メタデータ) (2024-05-26T12:26:54Z) - ASGrasp: Generalizable Transparent Object Reconstruction and Grasping from RGB-D Active Stereo Camera [9.212504138203222]
RGB-Dアクティブステレオカメラを用いた6自由度グリップ検出ネットワークASGraspを提案する。
本システムでは, 透明物体形状再構成において, 生のIRおよびRGB画像を直接利用できることで, 自己を識別する。
実験により、ASGraspは、一般化可能な透明物体把握において90%以上の成功率を達成できることが示された。
論文 参考訳(メタデータ) (2024-05-09T09:44:51Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - Uni6D: A Unified CNN Framework without Projection Breakdown for 6D Pose
Estimation [21.424035166174352]
最先端のアプローチでは、通常、異なるバックボーンを使用してRGBと深度画像の特徴を抽出する。
2つの独立したバックボーンを使用する重要な理由は、"投射分解"の問題である。
入力としてRGB-D画像とともに、余分なUVデータを明示的に取り出す、シンプルで効果的なUnixDを提案する。
論文 参考訳(メタデータ) (2022-03-28T07:05:27Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Sparse Depth Completion with Semantic Mesh Deformation Optimization [4.03103540543081]
本稿では、RGB画像とスパース深度サンプルを入力とし、完全な深度マップを予測し、最適化後のニューラルネットワークを提案する。
評価結果は,屋内および屋外両方のデータセットにおいて,既存の成果を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2021-12-10T13:01:06Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation [54.666329929930455]
単一RGBD画像からの6次元ポーズ推定のための双方向融合ネットワークであるFFB6Dを提案する。
表現学習と出力表現選択のための表現情報と幾何学情報を組み合わせることを学ぶ。
提案手法は,いくつかのベンチマークにおいて,最先端の手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-03-03T08:07:29Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - Deep-Geometric 6 DoF Localization from a Single Image in Topo-metric
Maps [39.05304338751328]
本稿では,1枚の画像から全6自由度(DoF)グローバルポーズを推定できるDeep-Geometric Localizerについて述べる。
本手法は, マッピングアルゴリズムと局所化アルゴリズム(ステレオとモノ)を分離し, 予めマッピングした環境下での正確な6自由度ポーズ推定を可能にする。
携帯電話やドローンなどの単一カメラデバイスでのVR/ARとローカライズアプリケーションにより、私たちのハイブリッドアルゴリズムは、完全なDeep-LearningベースのPose-Netと比較できる。
論文 参考訳(メタデータ) (2020-02-04T10:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。