Fugu-MT 論文翻訳(概要): Dynamically Modulating Visual Place Recognition Sequence Length For Minimum Acceptable Performance Scenarios

論文の概要: Dynamically Modulating Visual Place Recognition Sequence Length For Minimum Acceptable Performance Scenarios

arxiv url: http://arxiv.org/abs/2407.00863v1
Date: Mon, 1 Jul 2024 00:16:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 01:17:19.404333
Title: Dynamically Modulating Visual Place Recognition Sequence Length For Minimum Acceptable Performance Scenarios
Title（参考訳）: 最小許容性能シナリオのための動的に変化する視覚的位置認識長
Authors: Connor Malone, Ankit Vora, Thierry Peynot, Michael Milford,
Abstract要約: 単一画像の視覚的位置認識(VPR)は、ローカライゼーションの代替となるが、ロバスト性を改善するためにシーケンスマッチングのような技術を必要とすることが多い。本稿では,データキャリブレーションを用いて,VPRの配列長を目標のローカライゼーション性能を超えるようなモデルに適合させる手法を提案する。
参考スコア（独自算出の注目度）: 17.183024395686505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mobile robots and autonomous vehicles are often required to function in environments where critical position estimates from sensors such as GPS become uncertain or unreliable. Single image visual place recognition (VPR) provides an alternative for localization but often requires techniques such as sequence matching to improve robustness, which incurs additional computation and latency costs. Even then, the sequence length required to localize at an acceptable performance level varies widely; and simply setting overly long fixed sequence lengths creates unnecessary latency, computational overhead, and can even degrade performance. In these scenarios it is often more desirable to meet or exceed a set target performance at minimal expense. In this paper we present an approach which uses a calibration set of data to fit a model that modulates sequence length for VPR as needed to exceed a target localization performance. We make use of a coarse position prior, which could be provided by any other localization system, and capture the variation in appearance across this region. We use the correlation between appearance variation and sequence length to curate VPR features and fit a multilayer perceptron (MLP) for selecting the optimal length. We demonstrate that this method is effective at modulating sequence length to maximize the number of sections in a dataset which meet or exceed a target performance whilst minimizing the median length used. We show applicability across several datasets and reveal key phenomena like generalization capabilities, the benefits of curating features and the utility of non-state-of-the-art feature extractors with nuanced properties.
Abstract（参考訳）: 移動ロボットや自動運転車は、GPSなどのセンサーから推定される重要な位置が不確実あるいは信頼性の低い環境において機能する必要があることが多い。単一画像の視覚的位置認識(VPR)は、ローカライゼーションの代替手段を提供するが、ロバスト性を改善するためにシーケンスマッチングのような技術を必要とすることが多い。それでも、許容されるパフォーマンスレベルでローカライズに必要なシーケンス長は様々であり、過度に長い固定シーケンス長を設定するだけで、不要なレイテンシや計算オーバーヘッドが生じ、パフォーマンスが低下する可能性がある。これらのシナリオでは、最小限の費用で目標のパフォーマンスを満たしたり、超えたりすることが望ましい場合が多い。本稿では,VPRの配列長を目標ローカライゼーション性能を超えるように調整するモデルに,キャリブレーションデータセットを用いて適合する手法を提案する。我々は、他の任意の局所化システムによって提供されるような粗い位置を事前に利用し、この領域全体での外観の変化を捉えている。外観変化とシーケンス長の相関関係を用いて,VPRの特徴をキュレートし,最適な長さを選択するために多層パーセプトロン(MLP)を適合させる。本手法は, 使用した中央値長を最小化しつつ, 目標性能を達成または超過するデータセットの区間数を最大化するために, シーケンス長の調整に有効であることを示す。いくつかのデータセットに適用可能性を示し、一般化機能、キュレーション機能の利点、ニュアンス特性を持つ非最先端特徴抽出器の有用性などの重要な現象を明らかにする。

関連論文リスト

Length-Adaptive Interest Network for Balancing Long and Short Sequence Modeling in CTR Prediction [50.094751096858204]
LAINは、長いシーケンスと短いシーケンスのモデリングのバランスをとるために、シーケンス長を条件信号として組み込んだプラグアンドプレイフレームワークである。私たちの仕事は、シーケンシャルなレコメンデーションにおいて、長さによるバイアスを軽減する、汎用的で効率的でデプロイ可能なソリューションを提供します。
論文参考訳（メタデータ） (2026-01-27T03:14:20Z)
Few-Shot Video Object Segmentation in X-Ray Angiography Using Local Matching and Spatio-Temporal Consistency Loss [13.850743997507488]
探索空間を最も近いピクセルに制限する局所マッチング戦略を用いた新しいFSVOSモデルを提案する。具体的には、動的に異なるサンプリング領域を実現できる非パラメトリックサンプリング機構を実装した。この研究は、幅広い臨床応用のための強化されたポテンシャルを提供する。
論文参考訳（メタデータ） (2026-01-02T21:26:28Z)
InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。 InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-09-29T12:08:33Z)
LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文参考訳（メタデータ） (2025-08-04T11:22:13Z)
OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition [2.3093110834423616]
本稿では,新しいシーケンスモデリングフレームワークOptiCorNetを提案する。空間的特徴抽出と時間的差分を微分可能でエンドツーエンドのトレーニング可能なモジュールに統一する。本手法は,季節的・視点的な変化に挑戦し,最先端のベースラインよりも優れる。
論文参考訳（メタデータ） (2025-07-19T04:29:43Z)
Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文参考訳（メタデータ） (2025-06-30T17:14:12Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
Towards Efficient Real-Time Video Motion Transfer via Generative Time Series Modeling [7.3949576464066]
本研究では,モーショントランスファー対応ビデオアプリケーションにおいて,帯域幅を大幅に最適化する深層学習フレームワークを提案する。複雑な動きを効果的に捉えるために,キーポイントを検出することで動的物体を符号化する第1次運動モデル(FOMM)を用いる。ビデオアニメーションと再構成のために, 平均絶対誤差, 共同埋め込み予測アーキテクチャ埋め込み距離, 構造類似度指数, 平均ペアワイズ変位の3つの指標を用いて, 実験結果を検証した。
論文参考訳（メタデータ） (2025-04-07T22:21:54Z)
MATEY: multiscale adaptive foundation models for spatiotemporal physical systems [2.7767126393602726]
局所的な特徴に基づくパッチサイズを動的に調整する2つの適応トークン化方式を提案する。提案するマルチスケール適応モデルであるMATEYの性能を実験で評価する。また、PDEデータに基づいて事前学習した物理を特徴とする微調整タスクについても紹介する。
論文参考訳（メタデータ） (2024-12-29T22:13:16Z)
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。 Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。 nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-28T14:23:58Z)
FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
FIRSTは、層固有のルータを使用して、各入力シーケンスに適応的にトランスフォーマー層のサブセットを選択することで、推論レイテンシを低減するアルゴリズムである。私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文参考訳（メタデータ） (2024-10-16T12:45:35Z)
UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mamba [7.594115034632109]
本稿では,新しい時系列予測フレームワークであるUmambaTSFを提案する。 U字型エンコーダ・デコーダ多層パーセプトロン(MLP)のマルチスケール特徴抽出機能とMambaのロングシーケンス表現を統合する。 UmambaTSFは、広く使用されているベンチマークデータセットで最先端のパフォーマンスと優れた汎用性を達成する。
論文参考訳（メタデータ） (2024-10-15T04:56:43Z)
Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。 HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration [9.547947845734992]
イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
論文参考訳（メタデータ） (2024-09-25T14:08:37Z)
PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2024-08-20T01:56:07Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-04-12T13:41:29Z)
Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文参考訳（メタデータ） (2024-03-31T17:18:57Z)
FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。 3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文参考訳（メタデータ） (2022-03-24T07:26:29Z)
Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文参考訳（メタデータ） (2021-08-10T23:17:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。