論文の概要: SC-wLS: Towards Interpretable Feed-forward Camera Re-localization
- arxiv url: http://arxiv.org/abs/2210.12748v1
- Date: Sun, 23 Oct 2022 15:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:30:38.853038
- Title: SC-wLS: Towards Interpretable Feed-forward Camera Re-localization
- Title(参考訳): SC-wLS: フィードフォワードカメラのリローカライゼーションに向けて
- Authors: Xin Wu, Hao Zhao, Shunkai Li, Yingdian Cao, Hongbin Zha
- Abstract要約: 視覚的再ローカライゼーションは、ロボット工学や拡張現実といったアプリケーションにとって不可欠な、既知の環境でのカメラのポーズの回復を目的としている。
フィードフォワード絶対カメラは、ネットワークによって直接ポーズを出力するが、精度が低い。
重み付き最小二乗の回帰に対するすべてのシーン座標推定を生かしたSC-wLSというフィードフォワード手法を提案する。
- 参考スコア(独自算出の注目度): 29.332038781334443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual re-localization aims to recover camera poses in a known environment,
which is vital for applications like robotics or augmented reality.
Feed-forward absolute camera pose regression methods directly output poses by a
network, but suffer from low accuracy. Meanwhile, scene coordinate based
methods are accurate, but need iterative RANSAC post-processing, which brings
challenges to efficient end-to-end training and inference. In order to have the
best of both worlds, we propose a feed-forward method termed SC-wLS that
exploits all scene coordinate estimates for weighted least squares pose
regression. This differentiable formulation exploits a weight network imposed
on 2D-3D correspondences, and requires pose supervision only. Qualitative
results demonstrate the interpretability of learned weights. Evaluations on
7Scenes and Cambridge datasets show significantly promoted performance when
compared with former feed-forward counterparts. Moreover, our SC-wLS method
enables a new capability: self-supervised test-time adaptation on the weight
network. Codes and models are publicly available.
- Abstract(参考訳): 視覚の再ローカライズは、ロボット工学や拡張現実のようなアプリケーションにとって不可欠な、既知の環境でのカメラポーズの回復を目指している。
フィードフォワードの絶対カメラポーズレグレッション手法はネットワークから直接ポーズを出力するが、精度は低い。
一方、シーン座標に基づく手法は正確であるが、反復的なransac後処理が必要である。
両世界を最大限に活用するために,重み付き最小二乗の空間座標推定を全て利用したSC-wLSというフィードフォワード手法を提案する。
この微分可能な定式化は、2D-3D対応に課される重みネットワークを利用し、ポーズ監視のみを必要とする。
定性的な結果は学習重みの解釈可能性を示す。
7ScenesとCambridgeのデータセットの評価では、以前のフィードフォワードデータセットと比較して、パフォーマンスが大幅に向上した。
さらに,本手法では,重みネットワーク上での自己教師付きテスト時間適応を実現する。
コードとモデルは公開されている。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - WSCLoc: Weakly-Supervised Sparse-View Camera Relocalization [42.85368902409545]
WSCLocは、様々なディープラーニングベースの再ローカライゼーションモデルにカスタマイズできるシステムである。
最初の段階では、WSCLocはWFT-NeRFと呼ばれる多層パーセプトロン構造を用いて画像再構成の品質を最適化する。
第2段階では,事前学習したWFT-NeRFとWFT-Poseを併用する。
論文 参考訳(メタデータ) (2024-03-22T15:15:44Z) - Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural
Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。
本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文 参考訳(メタデータ) (2023-04-08T22:48:30Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Domain Adaptation of Networks for Camera Pose Estimation: Learning
Camera Pose Estimation Without Pose Labels [8.409695277909421]
ディープラーニングの重要な批判の1つは、モデルをトレーニングするためには、大量の高価で入手困難なトレーニングデータが必要であることである。
DANCEは、ターゲットタスクのラベルにアクセスせずにモデルのトレーニングを可能にする。
ラベル付き合成画像を3Dモデルからレンダリングし、合成画像と実際の画像の間に必然的な領域ギャップを埋める。
論文 参考訳(メタデータ) (2021-11-29T17:45:38Z) - LENS: Localization enhanced by NeRF synthesis [3.4386226615580107]
アルゴリズムのNeRFクラスによって描画された追加の合成データセットにより、カメラポーズの回帰が向上することを示す。
我々はさらに、トレーニング中のデータ拡張として、合成現実的および幾何学的一貫した画像を用いて、ポーズ回帰器の局所化精度を向上した。
論文 参考訳(メタデータ) (2021-10-13T08:15:08Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。