論文の概要: FocusTune: Tuning Visual Localization through Focus-Guided Sampling
- arxiv url: http://arxiv.org/abs/2311.02872v1
- Date: Mon, 6 Nov 2023 04:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:26:08.031318
- Title: FocusTune: Tuning Visual Localization through Focus-Guided Sampling
- Title(参考訳): focustune: focus-guided sampleによる視覚局在のチューニング
- Authors: Son Tung Nguyen, Alejandro Fontan, Michael Milford, Tobias Fischer
- Abstract要約: FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。
ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。
ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
- 参考スコア(独自算出の注目度): 61.79440120153917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose FocusTune, a focus-guided sampling technique to improve the
performance of visual localization algorithms. FocusTune directs a scene
coordinate regression model towards regions critical for 3D point triangulation
by exploiting key geometric constraints. Specifically, rather than uniformly
sampling points across the image for training the scene coordinate regression
model, we instead re-project 3D scene coordinates onto the 2D image plane and
sample within a local neighborhood of the re-projected points. While our
proposed sampling strategy is generally applicable, we showcase FocusTune by
integrating it with the recently introduced Accelerated Coordinate Encoding
(ACE) model. Our results demonstrate that FocusTune both improves or matches
state-of-the-art performance whilst keeping ACE's appealing low storage and
compute requirements, for example reducing translation error from 25 to 19 and
17 to 15 cm for single and ensemble models, respectively, on the Cambridge
Landmarks dataset. This combination of high performance and low compute and
storage requirements is particularly promising for applications in areas like
mobile robotics and augmented reality. We made our code available at
\url{https://github.com/sontung/focus-tune}.
- Abstract(参考訳): 視覚的ローカライゼーションアルゴリズムの性能向上のための焦点誘導サンプリング手法であるFocusTuneを提案する。
FocusTuneは、鍵となる幾何学的制約を利用して、3Dポイント三角測量に不可欠な領域に対してシーン座標回帰モデルを指示する。
具体的には、シーン座標回帰モデルをトレーニングするために画像全体にわたって一様に点をサンプリングするのではなく、2次元画像平面上に3次元シーン座標を再プロジェクションし、再プロジェクションされた点の近傍にサンプルを配置する。
提案手法は一般に適用可能であるが,最近導入された Accelerated Coordinate Encoding (ACE) モデルと統合することでFocusTuneを紹介する。
その結果、Cambridge Landmarksのデータセットでは、19から17から15cmまでの翻訳誤差を1つのモデルで削減するなど、ACEの魅力の低いストレージと計算要求を保ちながら、FocusTuneは最先端のパフォーマンスを改善または一致させることがわかった。
このハイパフォーマンスと低コンピューティングとストレージの要件の組み合わせは、モバイルロボティクスや拡張現実といった分野のアプリケーションに特に有望です。
コードは \url{https://github.com/sontung/focus-tune} で公開しました。
関連論文リスト
- SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。
提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T08:46:16Z) - GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。
提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文 参考訳(メタデータ) (2024-03-15T13:40:37Z) - Learning to Produce Semi-dense Correspondences for Visual Localization [11.415451542216559]
本研究は,夜間シナリオ,悪天候,季節変化などの要求条件下で視覚的局所化を行うことの課題に対処する。
本稿では,高密度なキーポイントマッチングに基づいて,信頼性の高い半高密度2D-3Dマッチングポイントを抽出する手法を提案する。
ネットワークは幾何学的および視覚的な手がかりを用いて、観測されたキーポイントから観測されていないキーポイントの3D座標を効果的に推測する。
論文 参考訳(メタデータ) (2024-02-13T10:40:10Z) - DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic
Voxelization [0.0]
本稿では,効率的な3Dポイント・クラウド・オブジェクト検出のための新しい2段階フレームワークを提案する。
生のクラウドデータを3D空間で直接解析するが、目覚ましい効率と精度を実現する。
我々は,75 FPSでKITTI 3Dオブジェクト検出データセットを,25 FPSの推論速度で良好な精度でOpenデータセット上で強調する。
論文 参考訳(メタデータ) (2021-07-27T10:07:39Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement [54.29252286561449]
グラフPCNNと呼ばれる2段階のグラフベースおよびモデルに依存しないフレームワークを提案する。
第1段階では、粗局化結果を得るために熱マップ回帰ネットワークを適用し、ガイドポイントと呼ばれる一連の提案キーポイントをサンプリングする。
第2段階では、各案内点について、ローカライゼーションにより異なる視覚特徴を抽出する。
ガイドされた点間の関係は、より正確なローカライゼーション結果を得るためにグラフポーズ精製モジュールによって探索される。
論文 参考訳(メタデータ) (2020-07-21T04:59:15Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z) - Multi-View Optimization of Local Feature Geometry [70.18863787469805]
本研究では,複数視点からの局所像の特徴の幾何を,未知のシーンやカメラの幾何を伴わずに精査する問題に対処する。
提案手法は,従来の特徴抽出とマッチングのパラダイムを自然に補完する。
本手法は,手作りと学習の両方の局所的特徴に対して,三角測量とカメラのローカライゼーション性能を常に向上することを示す。
論文 参考訳(メタデータ) (2020-03-18T17:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。