論文の概要: Implicit Learning of Scene Geometry from Poses for Global Localization
- arxiv url: http://arxiv.org/abs/2312.02029v1
- Date: Mon, 4 Dec 2023 16:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:28:04.743517
- Title: Implicit Learning of Scene Geometry from Poses for Global Localization
- Title(参考訳): グローバルローカライゼーションのためのポーズからのシーン幾何の暗黙的学習
- Authors: Mohammad Altillawi, Shile Li, Sai Manoj Prakhya, Ziyuan Liu, and Joan
Serrat
- Abstract要約: グローバル・ビジュアル・ローカライゼーション(Global visual localization)は、カメラの絶対的なポーズを1つの画像を用いて推定する。
既存の多くのアプローチでは、入力画像から直接6 DoFのポーズを学習する。
本稿では,これらの最小限のラベルを用いてシーンの3次元形状を学習することを提案する。
- 参考スコア(独自算出の注目度): 7.077874294016776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Global visual localization estimates the absolute pose of a camera using a
single image, in a previously mapped area. Obtaining the pose from a single
image enables many robotics and augmented/virtual reality applications.
Inspired by latest advances in deep learning, many existing approaches directly
learn and regress 6 DoF pose from an input image. However, these methods do not
fully utilize the underlying scene geometry for pose regression. The challenge
in monocular relocalization is the minimal availability of supervised training
data, which is just the corresponding 6 DoF poses of the images. In this paper,
we propose to utilize these minimal available labels (.i.e, poses) to learn the
underlying 3D geometry of the scene and use the geometry to estimate the 6 DoF
camera pose. We present a learning method that uses these pose labels and rigid
alignment to learn two 3D geometric representations (\textit{X, Y, Z
coordinates}) of the scene, one in camera coordinate frame and the other in
global coordinate frame. Given a single image, it estimates these two 3D scene
representations, which are then aligned to estimate a pose that matches the
pose label. This formulation allows for the active inclusion of additional
learning constraints to minimize 3D alignment errors between the two 3D scene
representations, and 2D re-projection errors between the 3D global scene
representation and 2D image pixels, resulting in improved localization
accuracy. During inference, our model estimates the 3D scene geometry in camera
and global frames and aligns them rigidly to obtain pose in real-time. We
evaluate our work on three common visual localization datasets, conduct
ablation studies, and show that our method exceeds state-of-the-art regression
methods' pose accuracy on all datasets.
- Abstract(参考訳): グローバル・ビジュアル・ローカライズ(global visual localization)は、カメラの絶対位置を単一の画像を用いて推定する。
単一の画像からポーズを取ることで、多くのロボティクスと拡張現実/仮想現実の応用が可能になる。
ディープラーニングの最近の進歩に触発されて、既存の多くのアプローチは入力画像から直接学習し、regress 6 dofをポーズする。
しかし,これらの手法はポーズ回帰に基礎となるシーン形状を十分に利用していない。
モノクロリローカライゼーションの課題は、イメージの対応する6つのDoFポーズである教師付きトレーニングデータの可用性が最小限であることだ。
本稿では,これらの最小限のラベル(ポーズ)を用いてシーンの3次元形状を学習し,その形状を用いて6DFカメラのポーズを推定する。
本稿では,これらのポーズラベルと厳密なアライメントを用いて,シーンの2つの3次元幾何学表現(\textit{x,y,z座標)を学習する学習手法を提案する。
単一の画像が与えられた場合、これらの2つの3dシーン表現を推定し、ポーズラベルにマッチするポーズを推定する。
この定式化により、2つの3次元シーン表現間の3次元アライメント誤差を最小限に抑えるために、追加の学習制約をアクティブに含めることができ、3次元グローバルシーン表現と2次元画像画素間の2次元再投影誤差を最小化し、ローカライゼーション精度が向上する。
推論では,カメラとグローバルフレームの3次元シーン形状を推定し,それらを厳密に整列させてリアルタイムでポーズを得る。
本研究では,3つの共通視定位データセットの作業を評価し,アブレーション研究を行い,全データセットにおける最先端回帰手法の姿勢精度を超越することを示す。
関連論文リスト
- Combining Absolute and Semi-Generalized Relative Poses for Visual Localization [39.2464667533733]
最先端のローカライゼーションアプローチでは、クエリ画像中のピクセルとシーン内の3Dポイントの2D-3Dマッチングを使用してポーズ推定を行う。
対照的に、構造のない手法は2D-2Dマッチングに依存しており、3Dシーンモデルを必要としない。
両戦略を組み合わせることで,複数の現実的なシナリオにおけるローカライズ性能が向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T23:55:42Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。