論文の概要: Flexible and Efficient Spatio-Temporal Transformer for Sequential Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2510.04282v1
- Date: Sun, 05 Oct 2025 16:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.559161
- Title: Flexible and Efficient Spatio-Temporal Transformer for Sequential Visual Place Recognition
- Title(参考訳): 逐次視覚位置認識のためのフレキシブルかつ効率的な時空間変換器
- Authors: Yu Kiu, Lau, Chao Chen, Ge Jin, Chen Feng,
- Abstract要約: Adapt-STformerはリコール時間を最大17%削減し,シーケンス抽出時間を36%削減し,メモリ使用量を35%削減した。
Nordland、Oxford、NuScenesのデータセットの実験では、Adapt-STformerがリコールを最大17%向上し、シーケンス抽出時間を36%削減し、メモリ使用量を35%削減している。
- 参考スコア(独自算出の注目度): 8.050179481110222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential Visual Place Recognition (Seq-VPR) leverages transformers to capture spatio-temporal features effectively; however, existing approaches prioritize performance at the expense of flexibility and efficiency. In practice, a transformer-based Seq-VPR model should be flexible to the number of frames per sequence (seq-length), deliver fast inference, and have low memory usage to meet real-time constraints. To our knowledge, no existing transformer-based Seq-VPR method achieves both flexibility and efficiency. To address this gap, we propose Adapt-STformer, a Seq-VPR method built around our novel Recurrent Deformable Transformer Encoder (Recurrent-DTE), which uses an iterative recurrent mechanism to fuse information from multiple sequential frames. This design naturally supports variable seq-lengths, fast inference, and low memory usage. Experiments on the Nordland, Oxford, and NuScenes datasets show that Adapt-STformer boosts recall by up to 17% while reducing sequence extraction time by 36% and lowering memory usage by 35% compared to the second-best baseline.
- Abstract(参考訳): 逐次視覚位置認識(Seq-VPR)は、トランスフォーマーを利用して時空間の特徴を効果的に捉えるが、既存のアプローチでは柔軟性と効率性を犠牲にして性能を優先する。
実際には、トランスフォーマーベースのSeq-VPRモデルは、シーケンス毎のフレーム数(シーケンス長)に柔軟に対応し、高速な推論を実現し、リアルタイムの制約を満たすためにメモリ使用量の少ないものにすべきである。
我々の知る限り、既存のトランスフォーマーベースのSeq-VPR法は、柔軟性と効率性を両立するものではない。
このギャップに対処するため、我々はRecurrent Deformable Transformer Encoder (Recurrent-DTE) をベースとしたSeq-VPR手法であるAdapt-STformerを提案する。
この設計は、変数のSeq長、高速推論、メモリ使用量の削減を自然にサポートする。
Nordland、Oxford、NuScenesのデータセットでの実験では、Adapt-STformerはリコールを最大17%向上し、シーケンス抽出時間を36%削減し、メモリ使用量を2番目のベースラインに比べて35%削減している。
関連論文リスト
- RAPID^3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer [86.57077884971478]
ディフュージョントランスフォーマー(DiT)は、視覚発生時に優れるが、遅いサンプリングによって妨げられる。
本稿では,RAPID3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformersを紹介する。
ベースジェネレータの更新をゼロにするイメージワイドアクセラレーションを提供する。
競合する生成品質でサンプリングを3倍近く高速化する。
論文 参考訳(メタデータ) (2025-09-26T13:20:52Z) - Adaptive Two Sided Laplace Transforms: A Learnable, Interpretable, and Scalable Replacement for Self-Attention [0.0]
本稿では,従来の自己注意をトランスフォーマーベースLLMに置き換える,革新的で学習可能な2面短時間ラプラス変換(STLT)機構を提案する。
我々のSTLTは各Laplaceノードに対してトレーニング可能なパラメータを導入し、崩壊率のエンドツーエンド学習を可能にした。
さらに、効率の良いFFTベースの関係行列計算と適応ノード割り当て機構を組み込んで、アクティブなLaplaceノードの数を動的に調整する。
論文 参考訳(メタデータ) (2025-06-01T00:32:24Z) - A temporal scale transformer framework for precise remaining useful life prediction in fuel cells [10.899223392837936]
TS Transformer (Temporal Scale Transformer) は、逆変換器(i Transformer)の拡張版である。
各タイムステップを入力トークンとして扱う従来のトランスフォーマーとは異なり、TSTransformerは異なる長さのシーケンスを異なる段階のトークンにマッピングし、シーケンス間モデリングを行う。
局所的な特徴抽出を改善し、時間スケールの特徴を捉え、トークン数と計算コストを削減する。
論文 参考訳(メタデータ) (2025-04-08T23:42:54Z) - TeTRA-VPR: A Ternary Transformer Approach for Compact Visual Place Recognition [24.433604332415204]
3次変換器であるTeTRAを提案し、ViTのバックボーンを2ビット精度に段階的に定量化し、最終埋め込み層をバイナライズする。
標準VPRベンチマークの実験では、TeTRAは効率的なベースラインに比べてメモリ消費を最大69%削減している。
これにより、パワー制約のあるメモリ制限のロボットプラットフォーム上での高精度なVPRが可能になり、TeTRAは現実のデプロイメントに魅力的なソリューションとなる。
論文 参考訳(メタデータ) (2025-03-04T11:20:10Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Sparse-VQ Transformer: An FFN-Free Framework with Vector Quantization
for Enhanced Time Series Forecasting [28.646457377816795]
スパースベクトル量子化FFN自由変換器(スパースVQ)について紹介する。
提案手法は,RevIN(Reverse Instance Normalization)と組み合わせた疎ベクトル量子化手法を用いてノイズの影響を低減する。
我々のFFNフリーアプローチは、パラメータカウントをトリムし、計算効率を向上し、オーバーフィッティングを減らす。
論文 参考訳(メタデータ) (2024-02-08T17:09:12Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。