論文の概要: Lightweight RGB-T Tracking with Mobile Vision Transformers
- arxiv url: http://arxiv.org/abs/2506.19154v1
- Date: Mon, 23 Jun 2025 21:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.404438
- Title: Lightweight RGB-T Tracking with Mobile Vision Transformers
- Title(参考訳): モバイルビジョン変換器を用いた軽量RGB-Tトラッキング
- Authors: Mahdi Falaki, Maria A. Amer,
- Abstract要約: モバイルビジョン変換器(MobileViT)に基づく新しい軽量RGB-Tトラッキングアルゴリズムを提案する。
最先端のマルチモーダルトラッカーと比較して,本モデルではパラメータ数を大幅に削減しつつ,同等の精度を実現している。
本稿では,RGB-TトラッキングとマルチモーダルトラッキングにMobile Vision Transformerを用いたトラッカーを提案する。
- 参考スコア(独自算出の注目度): 2.209921757303168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-modality object tracking (e.g., RGB-only) encounters difficulties in challenging imaging conditions, such as low illumination and adverse weather conditions. To solve this, multimodal tracking (e.g., RGB-T models) aims to leverage complementary data such as thermal infrared features. While recent Vision Transformer-based multimodal trackers achieve strong performance, they are often computationally expensive due to large model sizes. In this work, we propose a novel lightweight RGB-T tracking algorithm based on Mobile Vision Transformers (MobileViT). Our tracker introduces a progressive fusion framework that jointly learns intra-modal and inter-modal interactions between the template and search regions using separable attention. This design produces effective feature representations that support more accurate target localization while achieving a small model size and fast inference speed. Compared to state-of-the-art efficient multimodal trackers, our model achieves comparable accuracy while offering significantly lower parameter counts (less than 4 million) and the fastest GPU inference speed of 122 frames per second. This paper is the first to propose a tracker using Mobile Vision Transformers for RGB-T tracking and multimodal tracking at large. Tracker code and model weights will be made publicly available upon acceptance.
- Abstract(参考訳): 単一モードの物体追跡(例えば、RGBのみ)は、低照度や悪天候などの困難な撮像条件において困難に直面する。
この問題を解決するために、マルチモーダルトラッキング(例えばRGB-Tモデル)は熱赤外機能などの相補的なデータを活用することを目的としている。
最近のVision Transformerベースのマルチモーダルトラッカーは高い性能を達成するが、大きなモデルサイズのため計算コストがかかることが多い。
本研究では,Mobile Vision Transformers (MobileViT) に基づく軽量なRGB-T追跡アルゴリズムを提案する。
トラッカーは,テンプレートと検索領域間のモーダル内およびモーダル間相互作用を,個別の注意力を用いて共同で学習する,プログレッシブ・フュージョン・フレームワークを導入している。
この設計は、モデルのサイズを小さくし、高速な推論速度を達成しつつ、より正確なターゲットローカライゼーションをサポートする効果的な特徴表現を生成する。
最先端のマルチモーダルトラッカーと比較して,本モデルではパラメータ数(400万未満)が著しく低く,GPU推論速度は毎秒122フレームである。
本稿では,RGB-TトラッキングとマルチモーダルトラッキングにMobile Vision Transformerを用いたトラッカーを提案する。
トラッカーコードとモデルの重み付けは、受け入れ次第公開されます。
関連論文リスト
- SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Cross-Modal Object Tracking: Modality-Aware Representations and A
Unified Benchmark [8.932487291107812]
多くの視覚系では、視覚的トラッキングはしばしばRGB画像シーケンスに基づいており、一部のターゲットは低照度環境では無効である。
追従過程におけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識したターゲット表現を学習する新しいアルゴリズムを提案する。
無料の学術的利用のためにデータセットをリリースし、データセットのダウンロードリンクとコードを近くリリースします。
論文 参考訳(メタデータ) (2021-11-08T03:58:55Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。