論文の概要: TeTRA-VPR: A Ternary Transformer Approach for Compact Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2503.02511v1
- Date: Tue, 04 Mar 2025 11:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:48.756652
- Title: TeTRA-VPR: A Ternary Transformer Approach for Compact Visual Place Recognition
- Title(参考訳): TeTRA-VPR:コンパクトな視覚位置認識のための3次変換器アプローチ
- Authors: Oliver Grainge, Michael Milford, Indu Bodala, Sarvapali D. Ramchurn, Shoaib Ehsan,
- Abstract要約: 3次変換器であるTeTRAを提案し、ViTのバックボーンを2ビット精度に段階的に定量化し、最終埋め込み層をバイナライズする。
標準VPRベンチマークの実験では、TeTRAは効率的なベースラインに比べてメモリ消費を最大69%削減している。
これにより、パワー制約のあるメモリ制限のロボットプラットフォーム上での高精度なVPRが可能になり、TeTRAは現実のデプロイメントに魅力的なソリューションとなる。
- 参考スコア(独自算出の注目度): 24.433604332415204
- License:
- Abstract: Visual Place Recognition (VPR) localizes a query image by matching it against a database of geo-tagged reference images, making it essential for navigation and mapping in robotics. Although Vision Transformer (ViT) solutions deliver high accuracy, their large models often exceed the memory and compute budgets of resource-constrained platforms such as drones and mobile robots. To address this issue, we propose TeTRA, a ternary transformer approach that progressively quantizes the ViT backbone to 2-bit precision and binarizes its final embedding layer, offering substantial reductions in model size and latency. A carefully designed progressive distillation strategy preserves the representational power of a full-precision teacher, allowing TeTRA to retain or even surpass the accuracy of uncompressed convolutional counterparts, despite using fewer resources. Experiments on standard VPR benchmarks demonstrate that TeTRA reduces memory consumption by up to 69% compared to efficient baselines, while lowering inference latency by 35%, with either no loss or a slight improvement in recall@1. These gains enable high-accuracy VPR on power-constrained, memory-limited robotic platforms, making TeTRA an appealing solution for real-world deployment.
- Abstract(参考訳): ビジュアルプレース認識(VPR)は、ジオタグ付き参照画像のデータベースと照合することで、クエリ画像をローカライズする。
ViT(Vision Transformer)ソリューションは精度が高いが、大規模なモデルは、ドローンや移動ロボットのようなリソース制約のあるプラットフォームのメモリと計算予算を超えることが多い。
そこで本研究では,ViTのバックボーンを2ビット精度で段階的に定量化し,最終的な埋め込み層を2ナライズし,モデルサイズとレイテンシを大幅に削減する3次トランスフォーマ手法TeTRAを提案する。
慎重に設計されたプログレッシブ蒸留戦略は、フル精度の教師の表現力を保ち、リソースが少ないにもかかわらず、TeTRAが圧縮されていない畳み込みの精度を維持または超えるようにする。
標準VPRベンチマークの実験では、TeTRAは効率的なベースラインに比べてメモリ消費を最大69%削減し、推論遅延を35%削減した。
これにより、パワー制約のあるメモリ制限のロボットプラットフォーム上での高精度なVPRが可能になり、TeTRAは現実のデプロイメントに魅力的なソリューションとなる。
関連論文リスト
- Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。