論文の概要: Dynamically Modulating Visual Place Recognition Sequence Length For Minimum Acceptable Performance Scenarios
- arxiv url: http://arxiv.org/abs/2407.00863v1
- Date: Mon, 1 Jul 2024 00:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 01:17:19.404333
- Title: Dynamically Modulating Visual Place Recognition Sequence Length For Minimum Acceptable Performance Scenarios
- Title(参考訳): 最小許容性能シナリオのための動的に変化する視覚的位置認識長
- Authors: Connor Malone, Ankit Vora, Thierry Peynot, Michael Milford,
- Abstract要約: 単一画像の視覚的位置認識(VPR)は、ローカライゼーションの代替となるが、ロバスト性を改善するためにシーケンスマッチングのような技術を必要とすることが多い。
本稿では,データキャリブレーションを用いて,VPRの配列長を目標のローカライゼーション性能を超えるようなモデルに適合させる手法を提案する。
- 参考スコア(独自算出の注目度): 17.183024395686505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile robots and autonomous vehicles are often required to function in environments where critical position estimates from sensors such as GPS become uncertain or unreliable. Single image visual place recognition (VPR) provides an alternative for localization but often requires techniques such as sequence matching to improve robustness, which incurs additional computation and latency costs. Even then, the sequence length required to localize at an acceptable performance level varies widely; and simply setting overly long fixed sequence lengths creates unnecessary latency, computational overhead, and can even degrade performance. In these scenarios it is often more desirable to meet or exceed a set target performance at minimal expense. In this paper we present an approach which uses a calibration set of data to fit a model that modulates sequence length for VPR as needed to exceed a target localization performance. We make use of a coarse position prior, which could be provided by any other localization system, and capture the variation in appearance across this region. We use the correlation between appearance variation and sequence length to curate VPR features and fit a multilayer perceptron (MLP) for selecting the optimal length. We demonstrate that this method is effective at modulating sequence length to maximize the number of sections in a dataset which meet or exceed a target performance whilst minimizing the median length used. We show applicability across several datasets and reveal key phenomena like generalization capabilities, the benefits of curating features and the utility of non-state-of-the-art feature extractors with nuanced properties.
- Abstract(参考訳): 移動ロボットや自動運転車は、GPSなどのセンサーから推定される重要な位置が不確実あるいは信頼性の低い環境において機能する必要があることが多い。
単一画像の視覚的位置認識(VPR)は、ローカライゼーションの代替手段を提供するが、ロバスト性を改善するためにシーケンスマッチングのような技術を必要とすることが多い。
それでも、許容されるパフォーマンスレベルでローカライズに必要なシーケンス長は様々であり、過度に長い固定シーケンス長を設定するだけで、不要なレイテンシや計算オーバーヘッドが生じ、パフォーマンスが低下する可能性がある。
これらのシナリオでは、最小限の費用で目標のパフォーマンスを満たしたり、超えたりすることが望ましい場合が多い。
本稿では,VPRの配列長を目標ローカライゼーション性能を超えるように調整するモデルに,キャリブレーションデータセットを用いて適合する手法を提案する。
我々は、他の任意の局所化システムによって提供されるような粗い位置を事前に利用し、この領域全体での外観の変化を捉えている。
外観変化とシーケンス長の相関関係を用いて,VPRの特徴をキュレートし,最適な長さを選択するために多層パーセプトロン(MLP)を適合させる。
本手法は, 使用した中央値長を最小化しつつ, 目標性能を達成または超過するデータセットの区間数を最大化するために, シーケンス長の調整に有効であることを示す。
いくつかのデータセットに適用可能性を示し、一般化機能、キュレーション機能の利点、ニュアンス特性を持つ非最先端特徴抽出器の有用性などの重要な現象を明らかにする。
関連論文リスト
- Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。
既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。
本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文 参考訳(メタデータ) (2024-03-31T17:18:57Z) - On the Long Range Abilities of Transformers [69.3021852589771]
トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
論文 参考訳(メタデータ) (2023-11-28T09:21:48Z) - Improving Worst Case Visual Localization Coverage via Place-specific
Sub-selection in Multi-camera Systems [29.519262914510396]
6-DoFビジュアルローカライゼーションシステムは,3次元形状に根ざした原理的アプローチを用いて,地図上の画像の正確なカメラポーズ推定を行う。
オフザシェルフパイプラインに比べて,最悪のローカライゼーション性能が大幅に向上した。
提案手法は,特に自動運転車のクラウドシェアリングモデルに適用可能である。
論文 参考訳(メタデータ) (2022-06-28T10:59:39Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。