論文の概要: FocusTune: Tuning Visual Localization through Focus-Guided Sampling
- arxiv url: http://arxiv.org/abs/2311.02872v1
- Date: Mon, 6 Nov 2023 04:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:26:08.031318
- Title: FocusTune: Tuning Visual Localization through Focus-Guided Sampling
- Title(参考訳): focustune: focus-guided sampleによる視覚局在のチューニング
- Authors: Son Tung Nguyen, Alejandro Fontan, Michael Milford, Tobias Fischer
- Abstract要約: FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。
ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。
ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
- 参考スコア(独自算出の注目度): 61.79440120153917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose FocusTune, a focus-guided sampling technique to improve the
performance of visual localization algorithms. FocusTune directs a scene
coordinate regression model towards regions critical for 3D point triangulation
by exploiting key geometric constraints. Specifically, rather than uniformly
sampling points across the image for training the scene coordinate regression
model, we instead re-project 3D scene coordinates onto the 2D image plane and
sample within a local neighborhood of the re-projected points. While our
proposed sampling strategy is generally applicable, we showcase FocusTune by
integrating it with the recently introduced Accelerated Coordinate Encoding
(ACE) model. Our results demonstrate that FocusTune both improves or matches
state-of-the-art performance whilst keeping ACE's appealing low storage and
compute requirements, for example reducing translation error from 25 to 19 and
17 to 15 cm for single and ensemble models, respectively, on the Cambridge
Landmarks dataset. This combination of high performance and low compute and
storage requirements is particularly promising for applications in areas like
mobile robotics and augmented reality. We made our code available at
\url{https://github.com/sontung/focus-tune}.
- Abstract(参考訳): 視覚的ローカライゼーションアルゴリズムの性能向上のための焦点誘導サンプリング手法であるFocusTuneを提案する。
FocusTuneは、鍵となる幾何学的制約を利用して、3Dポイント三角測量に不可欠な領域に対してシーン座標回帰モデルを指示する。
具体的には、シーン座標回帰モデルをトレーニングするために画像全体にわたって一様に点をサンプリングするのではなく、2次元画像平面上に3次元シーン座標を再プロジェクションし、再プロジェクションされた点の近傍にサンプルを配置する。
提案手法は一般に適用可能であるが,最近導入された Accelerated Coordinate Encoding (ACE) モデルと統合することでFocusTuneを紹介する。
その結果、Cambridge Landmarksのデータセットでは、19から17から15cmまでの翻訳誤差を1つのモデルで削減するなど、ACEの魅力の低いストレージと計算要求を保ちながら、FocusTuneは最先端のパフォーマンスを改善または一致させることがわかった。
このハイパフォーマンスと低コンピューティングとストレージの要件の組み合わせは、モバイルロボティクスや拡張現実といった分野のアプリケーションに特に有望です。
コードは \url{https://github.com/sontung/focus-tune} で公開しました。
関連論文リスト
- Learning to Produce Semi-dense Correspondences for Visual Localization [11.415451542216559]
本研究は,夜間シナリオ,悪天候,季節変化などの要求条件下で視覚的局所化を行うことの課題に対処する。
本稿では,高密度なキーポイントマッチングに基づいて,信頼性の高い半高密度2D-3Dマッチングポイントを抽出する手法を提案する。
ネットワークは幾何学的および視覚的な手がかりを用いて、観測されたキーポイントから観測されていないキーポイントの3D座標を効果的に推測する。
論文 参考訳(メタデータ) (2024-02-13T10:40:10Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - DV-Det: Efficient 3D Point Cloud Object Detection with Dynamic
Voxelization [0.0]
本稿では,効率的な3Dポイント・クラウド・オブジェクト検出のための新しい2段階フレームワークを提案する。
生のクラウドデータを3D空間で直接解析するが、目覚ましい効率と精度を実現する。
我々は,75 FPSでKITTI 3Dオブジェクト検出データセットを,25 FPSの推論速度で良好な精度でOpenデータセット上で強調する。
論文 参考訳(メタデータ) (2021-07-27T10:07:39Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement [54.29252286561449]
グラフPCNNと呼ばれる2段階のグラフベースおよびモデルに依存しないフレームワークを提案する。
第1段階では、粗局化結果を得るために熱マップ回帰ネットワークを適用し、ガイドポイントと呼ばれる一連の提案キーポイントをサンプリングする。
第2段階では、各案内点について、ローカライゼーションにより異なる視覚特徴を抽出する。
ガイドされた点間の関係は、より正確なローカライゼーション結果を得るためにグラフポーズ精製モジュールによって探索される。
論文 参考訳(メタデータ) (2020-07-21T04:59:15Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z) - Multi-View Optimization of Local Feature Geometry [70.18863787469805]
本研究では,複数視点からの局所像の特徴の幾何を,未知のシーンやカメラの幾何を伴わずに精査する問題に対処する。
提案手法は,従来の特徴抽出とマッチングのパラダイムを自然に補完する。
本手法は,手作りと学習の両方の局所的特徴に対して,三角測量とカメラのローカライゼーション性能を常に向上することを示す。
論文 参考訳(メタデータ) (2020-03-18T17:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。