論文の概要: Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking
- arxiv url: http://arxiv.org/abs/2403.18193v1
- Date: Wed, 27 Mar 2024 02:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:45:45.631867
- Title: Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking
- Title(参考訳): ロバストなRGB-T追跡のための中核融合とマルチステージマルチフォームプロンプト
- Authors: Qiming Wang, Yongqiang Bai, Hongxing Song,
- Abstract要約: M3PTは、ミドルフュージョンとマルチモーダル、マルチステージの視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法である。
我々は,RGB-Tトラッキングにおける中間融合フレームワークの利用の先駆者であり,性能と効率のバランスを実現する。
提案手法は,46.1fpsの推論速度を達成しつつ,4つの挑戦的ベンチマークにおいて最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 1.8843687952462744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-T tracking, a vital downstream task of object tracking, has made remarkable progress in recent years. Yet, it remains hindered by two major challenges: 1) the trade-off between performance and efficiency; 2) the scarcity of training data. To address the latter challenge, some recent methods employ prompts to fine-tune pre-trained RGB tracking models and leverage upstream knowledge in a parameter-efficient manner. However, these methods inadequately explore modality-independent patterns and disregard the dynamic reliability of different modalities in open scenarios. We propose M3PT, a novel RGB-T prompt tracking method that leverages middle fusion and multi-modal and multi-stage visual prompts to overcome these challenges. We pioneer the use of the middle fusion framework for RGB-T tracking, which achieves a balance between performance and efficiency. Furthermore, we incorporate the pre-trained RGB tracking model into the framework and utilize multiple flexible prompt strategies to adapt the pre-trained model to the comprehensive exploration of uni-modal patterns and the improved modeling of fusion-modal features, harnessing the potential of prompt learning in RGB-T tracking. Our method outperforms the state-of-the-art methods on four challenging benchmarks, while attaining 46.1 fps inference speed.
- Abstract(参考訳): オブジェクト追跡の重要な下流タスクであるRGB-Tトラッキングは、近年顕著な進歩を遂げている。
しかし、これは2つの大きな課題によって妨げられている。
1) 性能と効率のトレードオフ
2)トレーニングデータの不足。
後者の課題に対処するために、近年の手法では、事前訓練されたRGB追跡モデルを微調整し、パラメータ効率の良い方法で上流の知識を活用するプロンプトが採用されている。
しかし、これらの手法はモダリティに依存しないパターンを不適切に探求し、オープンシナリオにおける異なるモダリティの動的信頼性を無視する。
我々は,中核融合とマルチモーダル・マルチステージ視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法であるM3PTを提案し,これらの課題を克服する。
我々は,RGB-Tトラッキングにおける中間融合フレームワークの利用の先駆者であり,性能と効率のバランスを実現する。
さらに、事前学習されたRGB追跡モデルをフレームワークに組み込み、複数のフレキシブルなプロンプト戦略を利用して、事前学習されたモデルを一様パターンの包括的探索や融合モーダル特徴のモデリングの改善に適応し、RGB-Tトラッキングにおける即時学習の可能性を活用する。
提案手法は,46.1fpsの推論速度を達成しつつ,4つの挑戦的ベンチマークにおいて最先端の手法よりも優れている。
関連論文リスト
- SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Unified Single-Stage Transformer Network for Efficient RGB-T Tracking [47.88113335927079]
我々は、上記3つのステージを単一のViT(Vision Transformer)バックボーンに統合するシングルステージのRGB-Tトラッキングネットワーク、すなわちUSTrackを提案する。
この構造により、ネットワークは、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。
3つのRGB-T追跡ベンチマーク実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-08-26T05:09:57Z) - RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文 参考訳(メタデータ) (2023-04-09T15:59:41Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。