論文の概要: Accelerated Coordinate Encoding: Learning to Relocalize in Minutes using
RGB and Poses
- arxiv url: http://arxiv.org/abs/2305.14059v1
- Date: Tue, 23 May 2023 13:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:11:32.874189
- Title: Accelerated Coordinate Encoding: Learning to Relocalize in Minutes using
RGB and Poses
- Title(参考訳): accelerated coordinate encoding: rgbとpassを使って数分で再ローカライズする学習
- Authors: Eric Brachmann, Tommaso Cavallari, Victor Adrian Prisacariu
- Abstract要約: 学習に基づく再ローカライズシステムは,5分以内で同じ精度を達成できることを示す。
我々の手法は最先端のシーン座標の回帰よりも300倍高速にマッピングできる。
- 参考スコア(独自算出の注目度): 19.362802419289526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based visual relocalizers exhibit leading pose accuracy, but require
hours or days of training. Since training needs to happen on each new scene
again, long training times make learning-based relocalization impractical for
most applications, despite its promise of high accuracy. In this paper we show
how such a system can actually achieve the same accuracy in less than 5
minutes. We start from the obvious: a relocalization network can be split in a
scene-agnostic feature backbone, and a scene-specific prediction head. Less
obvious: using an MLP prediction head allows us to optimize across thousands of
view points simultaneously in each single training iteration. This leads to
stable and extremely fast convergence. Furthermore, we substitute effective but
slow end-to-end training using a robust pose solver with a curriculum over a
reprojection loss. Our approach does not require privileged knowledge, such a
depth maps or a 3D model, for speedy training. Overall, our approach is up to
300x faster in mapping than state-of-the-art scene coordinate regression, while
keeping accuracy on par.
- Abstract(参考訳): 学習ベースの視覚的再ローカライザは、主要なポーズの精度を示すが、訓練には数時間や数日を要する。
トレーニングは新たなシーンごとに行われる必要があるため、学習ベースの再ローカライゼーションは、高い精度を約束しているにもかかわらず、ほとんどのアプリケーションにとって現実的ではない。
本稿では,このようなシステムが実際に5分以内で同じ精度を達成できることを示す。
再ローカライゼーションネットワークは、シーンに依存しない機能バックボーンとシーン固有の予測ヘッドに分割することができる。
MLP予測ヘッドを使用することで、単一のトレーニングイテレーション毎に数千のビューポイントを同時に最適化することが可能になります。
これは安定かつ極めて高速な収束をもたらす。
さらに,リジェクション損失に対するカリキュラム付きロバストポーズソルバを用いて,効果的だが遅いエンドツーエンドトレーニングを代用する。
私たちのアプローチでは、高速トレーニングのために深度マップや3dモデルといった特権的な知識は必要ありません。
全体として、我々のアプローチは、最先端のシーン座標回帰よりもマッピングが最大300倍高速であり、精度は同等です。
関連論文リスト
- Map-Relative Pose Regression for Visual Re-Localization [20.89982939633994]
本稿では,ポーズ回帰,マップ相対ポーズ回帰 (marepo) に対する新しいアプローチを提案する。
我々は、シーン固有の地図表現に対して、ポーズ予測がシーンマップに対して相対的であるように、ポーズ回帰器を条件とする。
提案手法は,屋内と屋外の2つの公開データセットにおいて,従来のポーズ回帰手法よりはるかに優れている。
論文 参考訳(メタデータ) (2024-04-15T15:53:23Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - Optimization Planning for 3D ConvNets [123.43419144051703]
3次元畳み込みニューラルネットワーク(3D ConvNets)を最適に学習するのは簡単ではない。
パスを一連のトレーニング“状態”に分解し、各状態におけるハイパーパラメータ、例えば学習率と入力クリップの長さを指定する。
我々は全ての候補状態に対して動的プログラミングを行い、最適な状態の置換、すなわち最適化経路を計画する。
論文 参考訳(メタデータ) (2022-01-11T16:13:31Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。