論文の概要: Dynamically Modulating Visual Place Recognition Sequence Length For Minimum Acceptable Performance Scenarios
- arxiv url: http://arxiv.org/abs/2407.00863v1
- Date: Mon, 1 Jul 2024 00:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 01:17:19.404333
- Title: Dynamically Modulating Visual Place Recognition Sequence Length For Minimum Acceptable Performance Scenarios
- Title(参考訳): 最小許容性能シナリオのための動的に変化する視覚的位置認識長
- Authors: Connor Malone, Ankit Vora, Thierry Peynot, Michael Milford,
- Abstract要約: 単一画像の視覚的位置認識(VPR)は、ローカライゼーションの代替となるが、ロバスト性を改善するためにシーケンスマッチングのような技術を必要とすることが多い。
本稿では,データキャリブレーションを用いて,VPRの配列長を目標のローカライゼーション性能を超えるようなモデルに適合させる手法を提案する。
- 参考スコア(独自算出の注目度): 17.183024395686505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile robots and autonomous vehicles are often required to function in environments where critical position estimates from sensors such as GPS become uncertain or unreliable. Single image visual place recognition (VPR) provides an alternative for localization but often requires techniques such as sequence matching to improve robustness, which incurs additional computation and latency costs. Even then, the sequence length required to localize at an acceptable performance level varies widely; and simply setting overly long fixed sequence lengths creates unnecessary latency, computational overhead, and can even degrade performance. In these scenarios it is often more desirable to meet or exceed a set target performance at minimal expense. In this paper we present an approach which uses a calibration set of data to fit a model that modulates sequence length for VPR as needed to exceed a target localization performance. We make use of a coarse position prior, which could be provided by any other localization system, and capture the variation in appearance across this region. We use the correlation between appearance variation and sequence length to curate VPR features and fit a multilayer perceptron (MLP) for selecting the optimal length. We demonstrate that this method is effective at modulating sequence length to maximize the number of sections in a dataset which meet or exceed a target performance whilst minimizing the median length used. We show applicability across several datasets and reveal key phenomena like generalization capabilities, the benefits of curating features and the utility of non-state-of-the-art feature extractors with nuanced properties.
- Abstract(参考訳): 移動ロボットや自動運転車は、GPSなどのセンサーから推定される重要な位置が不確実あるいは信頼性の低い環境において機能する必要があることが多い。
単一画像の視覚的位置認識(VPR)は、ローカライゼーションの代替手段を提供するが、ロバスト性を改善するためにシーケンスマッチングのような技術を必要とすることが多い。
それでも、許容されるパフォーマンスレベルでローカライズに必要なシーケンス長は様々であり、過度に長い固定シーケンス長を設定するだけで、不要なレイテンシや計算オーバーヘッドが生じ、パフォーマンスが低下する可能性がある。
これらのシナリオでは、最小限の費用で目標のパフォーマンスを満たしたり、超えたりすることが望ましい場合が多い。
本稿では,VPRの配列長を目標ローカライゼーション性能を超えるように調整するモデルに,キャリブレーションデータセットを用いて適合する手法を提案する。
我々は、他の任意の局所化システムによって提供されるような粗い位置を事前に利用し、この領域全体での外観の変化を捉えている。
外観変化とシーケンス長の相関関係を用いて,VPRの特徴をキュレートし,最適な長さを選択するために多層パーセプトロン(MLP)を適合させる。
本手法は, 使用した中央値長を最小化しつつ, 目標性能を達成または超過するデータセットの区間数を最大化するために, シーケンス長の調整に有効であることを示す。
いくつかのデータセットに適用可能性を示し、一般化機能、キュレーション機能の利点、ニュアンス特性を持つ非最先端特徴抽出器の有用性などの重要な現象を明らかにする。
関連論文リスト
- MATEY: multiscale adaptive foundation models for spatiotemporal physical systems [2.7767126393602726]
局所的な特徴に基づくパッチサイズを動的に調整する2つの適応トークン化方式を提案する。
提案するマルチスケール適応モデルであるMATEYの性能を実験で評価する。
また、PDEデータに基づいて事前学習した物理を特徴とする微調整タスクについても紹介する。
論文 参考訳(メタデータ) (2024-12-29T22:13:16Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mamba [7.594115034632109]
本稿では,新しい時系列予測フレームワークであるUmambaTSFを提案する。
U字型エンコーダ・デコーダ多層パーセプトロン(MLP)のマルチスケール特徴抽出機能とMambaのロングシーケンス表現を統合する。
UmambaTSFは、広く使用されているベンチマークデータセットで最先端のパフォーマンスと優れた汎用性を達成する。
論文 参考訳(メタデータ) (2024-10-15T04:56:43Z) - Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration [9.547947845734992]
イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。
本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。
私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。
既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。
本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文 参考訳(メタデータ) (2024-03-31T17:18:57Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。