論文の概要: Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision
- arxiv url: http://arxiv.org/abs/2104.02538v1
- Date: Tue, 6 Apr 2021 14:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:03:14.703720
- Title: Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision
- Title(参考訳): グラフニューラルネットワークと相対姿勢監視を用いた視覚カメラ再局在化
- Authors: Mehmet Ozgur Turkoglu, Eric Brachmann, Konrad Schindler, Gabriel
Brostow, Aron Monszpart
- Abstract要約: 視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
- 参考スコア(独自算出の注目度): 31.947525258453584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual re-localization means using a single image as input to estimate the
camera's location and orientation relative to a pre-recorded environment. The
highest-scoring methods are "structure based," and need the query camera's
intrinsics as an input to the model, with careful geometric optimization. When
intrinsics are absent, methods vie for accuracy by making various other
assumptions. This yields fairly good localization scores, but the models are
"narrow" in some way, eg., requiring costly test-time computations, or depth
sensors, or multiple query frames. In contrast, our proposed method makes few
special assumptions, and is fairly lightweight in training and testing.
Our pose regression network learns from only relative poses of training
scenes. For inference, it builds a graph connecting the query image to training
counterparts and uses a graph neural network (GNN) with image representations
on nodes and image-pair representations on edges. By efficiently passing
messages between them, both representation types are refined to produce a
consistent camera pose estimate. We validate the effectiveness of our approach
on both standard indoor (7-Scenes) and outdoor (Cambridge Landmarks) camera
re-localization benchmarks. Our relative pose regression method matches the
accuracy of absolute pose regression networks, while retaining the
relative-pose models' test-time speed and ability to generalize to non-training
scenes.
- Abstract(参考訳): 視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
最も高精細な方法は「構造ベース」であり、注意深く幾何学的な最適化を行い、モデルへの入力としてクエリカメラの固有性が必要である。
内在性がない場合、メソッドは様々な仮定をすることで精度を高める。
これはかなり良いローカライゼーションスコアをもたらすが、モデルは何らかの意味で「狭く」、例えば、コストのかかるテスト時間計算や深度センサー、あるいは複数のクエリフレームを必要とする。
対照的に,提案手法は特別な仮定をほとんど行わず,訓練やテストにおいてかなり軽量である。
我々のポーズ回帰ネットワークは、訓練シーンの相対的なポーズのみから学習する。
推論のために、クエリイメージとトレーニング対象をつなぐグラフを構築し、ノードにイメージ表現、エッジにイメージペア表現を備えたグラフニューラルネットワーク(gnn)を使用する。
メッセージを効率よく送ることで、両表現型を洗練して一貫したカメラポーズ推定を生成する。
標準的な屋内(7シーン)と屋外(Cambridge Landmarks)のカメラ再ローカライズベンチマークにおけるアプローチの有効性を検証する。
我々の相対ポーズ回帰法は絶対ポーズ回帰ネットワークの精度と一致し、相対ポーズモデルのテスト時間速度と非学習シーンへの一般化能力は維持する。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Learning to Localize in Unseen Scenes with Relative Pose Regressors [5.672132510411465]
相対的なポーズ回帰器(RPR)は、相対的な翻訳と回転をポーズラベル付き参照に推定することで、カメラをローカライズする。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
我々は、結合、投影、注意操作(Transformer)によるアグリゲーションを実装し、結果として生じる潜在コードから相対的なポーズパラメータを回帰することを学ぶ。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
論文 参考訳(メタデータ) (2023-03-05T17:12:50Z) - A Probabilistic Framework for Visual Localization in Ambiguous Scenes [64.13544430239267]
本稿では,カメラポーズの任意の形状の後部分布を予測する確率的枠組みを提案する。
我々は、予測分布からサンプリングできる変分推論を用いて、カメラポーズ回帰の新たな定式化によってこれを行う。
本手法は,不明瞭なシーンの局所化において,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-01-05T14:46:54Z) - Camera Pose Auto-Encoders for Improving Pose Regression [6.700873164609009]
カメラポーズオートエンコーダ(PAE)を導入し,APRを教師として用いたカメラポーズをエンコードする。
得られた潜在ポーズ表現は、APRのパフォーマンスを密に再現し、関連するタスクに対してそれらの効果を示すことができることを示す。
また、学習したポーズエンコーディングから列車画像の再構成が可能であることを示し、低メモリで設定した列車の視覚情報を統合する方法について検討した。
論文 参考訳(メタデータ) (2022-07-12T13:47:36Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - Fusing Convolutional Neural Network and Geometric Constraint for
Image-based Indoor Localization [4.071875179293035]
本稿では,カメラ/ロボットを明示的にローカライズする画像ベースローカライズフレームワークを提案する。
カメラは、観察された1つまたは少数の画像を使用してローカライズされ、6自由度なポーズラベルを持つ訓練画像を使用する。
シミュレーションと実データを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-01-05T02:04:41Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。