論文の概要: SGL: Structure Guidance Learning for Camera Localization
- arxiv url: http://arxiv.org/abs/2304.05571v1
- Date: Wed, 12 Apr 2023 02:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:17:20.183177
- Title: SGL: Structure Guidance Learning for Camera Localization
- Title(参考訳): SGL:カメラローカライゼーションのための構造指導学習
- Authors: Xudong Zhang, Shuang Gao, Xiaohu Nan, Haikuan Ning, Yuchen Yang,
Yishan Ping, Jixiang Wan, Shuzhou Dong, Jijunnan Li, Yandong Guo
- Abstract要約: 本稿では,SGL(Structure Guidance Bundle)と呼ばれるネットワークアーキテクチャを提案する。
本研究では、シーン予測に焦点をあて、受容分岐と構造分岐を利用して高レベル特徴と低レベル特徴の両方を抽出するSGLというネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 7.094881396940598
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Camera localization is a classical computer vision task that serves various
Artificial Intelligence and Robotics applications. With the rapid developments
of Deep Neural Networks (DNNs), end-to-end visual localization methods are
prosperous in recent years. In this work, we focus on the scene coordinate
prediction ones and propose a network architecture named as Structure Guidance
Learning (SGL) which utilizes the receptive branch and the structure branch to
extract both high-level and low-level features to estimate the 3D coordinates.
We design a confidence strategy to refine and filter the predicted 3D
observations, which enables us to estimate the camera poses by employing the
Perspective-n-Point (PnP) with RANSAC. In the training part, we design the
Bundle Adjustment trainer to help the network fit the scenes better.
Comparisons with some state-of-the-art (SOTA) methods and sufficient ablation
experiments confirm the validity of our proposed architecture.
- Abstract(参考訳): カメラのローカライゼーション(英: camera localization)は、さまざまな人工知能やロボット工学の応用に役立つ古典的なコンピュータビジョンタスクである。
近年、Deep Neural Networks(DNN)の急速な発展に伴い、エンド・ツー・エンドの視覚的ローカライゼーション手法が繁栄している。
本研究では,シーン座標の予測に焦点をあて,受容分岐と構造分岐を利用して高次・低次両方の特徴を抽出して3次元座標を推定する構造誘導学習(SGL)と呼ばれるネットワークアーキテクチャを提案する。
我々は,予測した3次元観察を洗練・フィルタリングするための信頼度戦略を考案し,カメラのポーズをransacを用いてpnpを用いて推定する。
トレーニングパートでは、ネットワークのシーンの適合性を改善するために、バンドル調整トレーナーを設計する。
sota(state-of-the-art)法と十分なアブレーション実験との比較により,提案手法の有効性を確認した。
関連論文リスト
- The NeRFect Match: Exploring NeRF Features for Visual Localization [45.42725089658268]
視覚的位置決めのためのシーン表現としてNeRF(Neural Radiance Fields)を提案する。
局所化のための正確な2D-3Dマッチングを確立する際に、NeRFの内部特徴の可能性を探ることで、認識された利点を拡大する。
ビュー合成により学習したNeRFの内部知識を活かした2D-3Dマッチング機能であるNeRFMatchを導入する。
論文 参考訳(メタデータ) (2024-03-14T17:11:49Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective
Crop Layers [111.55817466296402]
我々は、カメラ幾何学に基づく関心領域の視点作物であるパースペクティブ・クロップ・レイヤ(PCL)を紹介する。
PCLは、エンドツーエンドのトレーニングと基礎となるニューラルネットワークのパラメータ数を残しながら、位置依存的な視点効果を決定論的に除去する。
PCLは、既存の3D再構成ネットワークを幾何学的に認識することで、容易に精度を向上させる手段を提供する。
論文 参考訳(メタデータ) (2020-11-27T08:48:43Z) - 3D Scene Geometry-Aware Constraint for Camera Localization with Deep
Learning [11.599633757222406]
近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。
本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。
これらの従来の手法から着想を得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
論文 参考訳(メタデータ) (2020-05-13T04:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。