論文の概要: LightFC-X: Lightweight Convolutional Tracker for RGB-X Tracking
- arxiv url: http://arxiv.org/abs/2502.18143v1
- Date: Tue, 25 Feb 2025 12:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:14.074045
- Title: LightFC-X: Lightweight Convolutional Tracker for RGB-X Tracking
- Title(参考訳): LightFC-X:RGB-Xトラッカー用軽量コンボリューショナルトラッカー
- Authors: Yunfeng Li, Bo Wang, Ye Li,
- Abstract要約: LightFC-Xは、マルチモーダルトラッキングのための軽量な畳み込みXトラッカーのファミリーである。
LightFC-Xは、最先端の性能とパラメータ、性能、速度の最適なバランスを達成する。
- 参考スコア(独自算出の注目度): 4.963745612929956
- License:
- Abstract: Despite great progress in multimodal tracking, these trackers remain too heavy and expensive for resource-constrained devices. To alleviate this problem, we propose LightFC-X, a family of lightweight convolutional RGB-X trackers that explores a unified convolutional architecture for lightweight multimodal tracking. Our core idea is to achieve lightweight cross-modal modeling and joint refinement of the multimodal features and the spatiotemporal appearance features of the target. Specifically, we propose a novel efficient cross-attention module (ECAM) and a novel spatiotemporal template aggregation module (STAM). The ECAM achieves lightweight cross-modal interaction of template-search area integrated feature with only 0.08M parameters. The STAM enhances the model's utilization of temporal information through module fine-tuning paradigm. Comprehensive experiments show that our LightFC-X achieves state-of-the-art performance and the optimal balance between parameters, performance, and speed. For example, LightFC-T-ST outperforms CMD by 4.3% and 5.7% in SR and PR on the LasHeR benchmark, which it achieves 2.6x reduction in parameters and 2.7x speedup. It runs in real-time on the CPU at a speed of 22 fps. The code is available at https://github.com/LiYunfengLYF/LightFC-X.
- Abstract(参考訳): マルチモーダルトラッキングの大幅な進歩にもかかわらず、これらのトラッカーは資源に制約のあるデバイスには重すぎて高価である。
この問題を軽減するために、軽量マルチモーダルトラッキングのための統一畳み込みアーキテクチャを探索する軽量畳み込みRGB-Xトラッカー群であるLightFC-Xを提案する。
我々の中核となる考え方は、マルチモーダル特徴の軽量なクロスモーダルモデリングと、ターゲットの時空間的特徴の強化である。
具体的には、新しい効率的なクロスアテンションモジュール(ECAM)と、新しい時空間テンプレートアグリゲーションモジュール(STAM)を提案する。
ECAMはテンプレート検索領域統合機能と0.08Mパラメータの軽量な相互モーダル相互作用を実現する。
STAMはモジュールファインチューニングパラダイムを通じて時間情報の利用を強化する。
総合的な実験により、我々のLightFC-Xは最先端の性能とパラメータ、性能、速度の最適なバランスを達成できることが示された。
例えば、LightFC-T-STはLasHeRベンチマークでCMDを4.3%、SRとPRで5.7%上回り、パラメータの2.6倍と2.7倍のスピードアップを達成した。
動作速度は22fpsで、CPU上でリアルタイムで動作します。
コードはhttps://github.com/LiYunfengLYF/LightFC-Xで公開されている。
関連論文リスト
- Light-T2M: A Lightweight and Fast Model for Text-to-motion Generation [30.05431858162078]
テキスト・トゥ・モーション(T2M)生成は様々なアプリケーションにおいて重要な役割を果たしている。
現在の手法ではパラメータが多数含まれており、推論速度が遅い。
本稿では,軽量で高速なLight-T2Mモデルを提案する。
論文 参考訳(メタデータ) (2024-12-15T13:58:37Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Mamba-FETrack: Frame-Event Tracking via State Space Model [14.610806117193116]
本稿では,状態空間モデル(SSM)に基づく新しいRGBイベント追跡フレームワークであるMamba-FETrackを提案する。
具体的には、RGBフレームとイベントストリームの特徴を抽出するために、2つのモダリティ固有のMambaバックボーンネットワークを採用する。
FELTとFE108データセットの大規模な実験により、提案したトラッカーの有効性と有効性を完全に検証した。
論文 参考訳(メタデータ) (2024-04-28T13:12:49Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Lightweight Full-Convolutional Siamese Tracker [4.903759699116597]
本稿では,LightFCと呼ばれる軽量完全畳み込み式シームズトラッカーを提案する。
LightFCは、新しい効率的な相互相関モジュールと、新しい効率的なre-centerヘッドを採用している。
実験の結果、LightFCは性能、パラメータ、FlopsとFPSの最適なバランスを実現することがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:07:35Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - TadML: A fast temporal action detection with Mechanics-MLP [0.5148939336441986]
時間的行動検出(TAD)はビデオ理解において不可欠だが難しい課題である。
現在のモデルでは、TADタスクにRGBとOpto-Flowストリームが採用されている。
本稿では,RGBストリームのみを用いたワンステージアンカーフリー時間的ローカライズ手法を提案し,新しいニュートン力学-MLPアーキテクチャを構築した。
論文 参考訳(メタデータ) (2022-06-07T04:07:48Z) - FEAR: Fast, Efficient, Accurate and Robust Visual Tracker [2.544539499281093]
私たちは、新しい、高速で、効率的で、正確で、堅牢なシームズ・ビジュアル・トラッカーであるFEARを紹介します。
FEAR-XSトラッカーは、LightTrack [62]より2.4倍小さく、4.3倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-12-15T08:28:55Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。