論文の概要: TAT-VPR: Ternary Adaptive Transformer for Dynamic and Efficient Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2505.16447v1
- Date: Thu, 22 May 2025 09:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.194395
- Title: TAT-VPR: Ternary Adaptive Transformer for Dynamic and Efficient Visual Place Recognition
- Title(参考訳): TAT-VPR:動的かつ効率的な視覚位置認識のための3次適応変換器
- Authors: Oliver Grainge, Michael Milford, Indu Bodala, Sarvapali D. Ramchurn, Shoaib Ehsan,
- Abstract要約: TAT-VPRは3値変圧器であり、視覚SLAMループ閉鎖にダイナミックな精度効率トレードオフをもたらす。
パフォーマンスを低下させることなく、実行時に最大40%の計算を制御できる。
- 参考スコア(独自算出の注目度): 24.433604332415204
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: TAT-VPR is a ternary-quantized transformer that brings dynamic accuracy-efficiency trade-offs to visual SLAM loop-closure. By fusing ternary weights with a learned activation-sparsity gate, the model can control computation by up to 40% at run-time without degrading performance (Recall@1). The proposed two-stage distillation pipeline preserves descriptor quality, letting it run on micro-UAV and embedded SLAM stacks while matching state-of-the-art localization accuracy.
- Abstract(参考訳): TAT-VPRは3値変圧器であり、視覚SLAMループ閉鎖にダイナミックな精度効率トレードオフをもたらす。
3次重みを学習されたアクティベーションスパーシティゲートで融合することにより、パフォーマンスを劣化させることなく、実行時に最大40%まで計算を制御することができる(Recall@1)。
提案した2段蒸留パイプラインは、記述器の品質を保ち、最先端のローカライゼーション精度に適合しながら、マイクロUAVおよび組み込みSLAMスタック上で動作させることができる。
関連論文リスト
- FMDConv: Fast Multi-Attention Dynamic Convolution via Speed-Accuracy Trade-off [12.900580256269155]
本稿では,FMDConv(Fast Multi-Attention Dynamic Convolution)を提案する。
CIFAR-10、CIFAR-100、ImageNetの実験では、FMDConvはResNet-18では最大49.8%、ResNet-50では42.2%の計算コストを削減している。
論文 参考訳(メタデータ) (2025-03-21T20:23:32Z) - On Disentangled Training for Nonlinear Transform in Learned Image Compression [59.66885464492666]
学習画像圧縮(lic)は,従来のコーデックに比べて高いレート歪み(R-D)性能を示した。
既存のlic法は、非線形変換の学習において、エネルギーのコンパクト化によって生じる緩やかな収束を見落としている。
非線形変換の訓練において, エネルギーの縮退を両立させる線形補助変換(AuxT)を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:32:06Z) - LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition [4.375744277719009]
LORTSARは2つの主要なトランスフォーマーベースモデル、"Hyperformer"と"STEP-CATFormer"に適用される。
本手法は, 認識精度の劣化や性能向上などにより, モデルパラメータの数を大幅に削減することができる。
これは、SVDと圧縮後の微調整を組み合わせることでモデル効率が向上し、人間の行動認識におけるより持続的で軽量で高性能な技術への道が開けることを確認する。
論文 参考訳(メタデータ) (2024-07-19T20:19:41Z) - Gaussian Primitives for Deformable Image Registration [9.184092856125067]
脳MRI、肺CT、心臓MRIのデータセットの実験結果から、GaussianDIRは既存のDIR法よりも精度と効率が優れていることが示されている。
トレーニングなしのアプローチとして、反復的手法は本質的に遅く、一般化不足の限界を超越しているというステレオタイプに挑戦する。
論文 参考訳(メタデータ) (2024-06-05T15:44:54Z) - Private Federated Learning with Dynamic Power Control via Non-Coherent
Over-the-Air Computation [12.56727008993937]
動的電力制御に基づくスキームが提案されている。
提案手法は,時間同期誤差,チャネルのフェージング,ノイズの影響を緩和できることを示す。
論文 参考訳(メタデータ) (2023-08-05T13:46:50Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - VLDeformer: Learning Visual-Semantic Embeddings by Vision-Language
Transformer Decomposing [7.890230091463883]
視覚言語変換器(VL変換器)は、クロスモーダル検索において顕著な精度を示している。
本稿では,単一の画像やテキストに対して,VL変換器を個別エンコーダとして変更するための新しい視覚言語変換器分解(VLDeformer)を提案する。
論文 参考訳(メタデータ) (2021-10-20T09:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。