論文の概要: AsymLoc: Towards Asymmetric Feature Matching for Efficient Visual Localization
- arxiv url: http://arxiv.org/abs/2604.09445v1
- Date: Fri, 10 Apr 2026 16:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.949844
- Title: AsymLoc: Towards Asymmetric Feature Matching for Efficient Visual Localization
- Title(参考訳): AsymLoc: 効率的な視覚像定位のための非対称特徴マッチングを目指して
- Authors: Mohammad Omama, Gabriele Berton, Eric Foxlin, Yelin Kim,
- Abstract要約: 大規模な教師モデルが事前マップされたデータベースイメージをオフラインで処理し、軽量の学生モデルがクエリイメージをオンラインで処理する、非対称な視覚的ローカライゼーションを提案する。
AsymLocは学生を教師に合わせる新しい蒸留フレームワークであり、幾何学駆動のマッチング目的と共同検出器・ディスクリプタ蒸留目標を組み合わせたものである。
HPatches、ScanNet、IMC2022、Aachenの実験では、AsymLocは教師のローカライゼーション精度の最大95%を、桁違いに小さなモデルで達成している。
- 参考スコア(独自算出の注目度): 3.5999071382005017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise and real-time visual localization is critical for applications like AR/VR and robotics, especially on resource-constrained edge devices such as smart glasses, where battery life and heat dissipation can be a primary concerns. While many efficient models exist, further reducing compute without sacrificing accuracy is essential for practical deployment. To address this, we propose asymmetric visual localization: a large Teacher model processes pre-mapped database images offline, while a lightweight Student model processes the query image online. This creates a challenge in matching features from two different models without resorting to heavy, learned matchers. We introduce AsymLoc, a novel distillation framework that aligns a Student to its Teacher through a combination of a geometry-driven matching objective and a joint detector-descriptor distillation objective, enabling fast, parameter-less nearest-neighbor matching. Extensive experiments on HPatches, ScanNet, IMC2022, and Aachen show that AsymLoc achieves up to 95% of the teacher's localization accuracy using an order of magnitude smaller models, significantly outperforming existing baselines and establishing a new state-of-the-art efficiency-accuracy trade-off.
- Abstract(参考訳): 高精度でリアルタイムな視覚的ローカライゼーションは、AR/VRやロボティクスといったアプリケーション、特にバッテリー寿命と熱散逸が主な関心事であるスマートグラスのようなリソース制約のあるエッジデバイスにとって、非常に重要である。
多くの効率的なモデルが存在するが、実際の展開には精度を犠牲にすることなく計算を更に削減することが不可欠である。
大規模な教師モデルでは事前マップされたデータベースイメージをオフラインで処理し、軽量の学生モデルではクエリイメージをオンラインで処理する。
これは、2つの異なるモデルの機能を、重く学習されたマーカに頼らずにマッチングするという課題を生み出します。
AsymLocは, 学生を教師に合わせる新しい蒸留フレームワークであり, 幾何学駆動型マッチング目標と共同検出器記述器蒸留目標を組み合わせることで, 高速, パラメータレス近傍マッチングを可能にする。
HPatches, ScanNet, IMC2022, Aachenの大規模な実験は、AsymLocが教師のローカライゼーション精度の最大95%を、桁違いの小さなモデルで達成し、既存のベースラインを著しく上回り、新しい最先端の効率と精度のトレードオフを確立していることを示している。
関連論文リスト
- Federated Learning of Low-Rank One-Shot Image Detection Models in Edge Devices with Scalable Accuracy and Compute Complexity [5.820612543019548]
LoRa-FLは、エッジデバイスにデプロイされた低ランクのワンショット画像検出モデルをトレーニングするために設計された。
低ランク適応手法をワンショット検出アーキテクチャに組み込むことで,計算と通信のオーバーヘッドを大幅に低減する。
論文 参考訳(メタデータ) (2025-04-23T08:40:44Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Inference from Real-World Sparse Measurements [21.194357028394226]
実世界の問題は、しばしば複雑で非構造的な測定セットが伴うが、これはセンサーが空間または時間に狭く配置されているときに起こる。
セットからセットまで様々な位置で測定セットを処理し、どこででも読み出しを抽出できるディープラーニングアーキテクチャは、方法論的に困難である。
本稿では,適用性と実用的堅牢性に着目したアテンションベースモデルを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:42:20Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Follow Your Path: a Progressive Method for Knowledge Distillation [23.709919521355936]
本稿では,教師モデルの指導信号を学生のパラメータ空間に投影することで,新しいモデルに依存しないProKTを提案する。
画像とテキストの双方で実験した結果,提案したProKTは既存の知識蒸留法と比較して常に優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2021-07-20T07:44:33Z) - AttentionLite: Towards Efficient Self-Attention Models for Vision [9.957033392865982]
本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。
計算量の多い教師から知識を同時蒸留でき、同時に学生モデルを1回の訓練パスで刈り取ることができる。
論文 参考訳(メタデータ) (2020-12-21T17:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。