Fugu-MT 論文翻訳(概要): Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking

論文の概要: Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking

arxiv url: http://arxiv.org/abs/2403.18193v1
Date: Wed, 27 Mar 2024 02:06:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 18:45:45.631867
Title: Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking
Title（参考訳）: ロバストなRGB-T追跡のための中核融合とマルチステージマルチフォームプロンプト
Authors: Qiming Wang, Yongqiang Bai, Hongxing Song,
Abstract要約: M3PTは、ミドルフュージョンとマルチモーダル、マルチステージの視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法である。我々は,RGB-Tトラッキングにおける中間融合フレームワークの利用の先駆者であり,性能と効率のバランスを実現する。提案手法は,46.1fpsの推論速度を達成しつつ,4つの挑戦的ベンチマークにおいて最先端の手法よりも優れている。
参考スコア（独自算出の注目度）: 1.8843687952462744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: RGB-T tracking, a vital downstream task of object tracking, has made remarkable progress in recent years. Yet, it remains hindered by two major challenges: 1) the trade-off between performance and efficiency; 2) the scarcity of training data. To address the latter challenge, some recent methods employ prompts to fine-tune pre-trained RGB tracking models and leverage upstream knowledge in a parameter-efficient manner. However, these methods inadequately explore modality-independent patterns and disregard the dynamic reliability of different modalities in open scenarios. We propose M3PT, a novel RGB-T prompt tracking method that leverages middle fusion and multi-modal and multi-stage visual prompts to overcome these challenges. We pioneer the use of the middle fusion framework for RGB-T tracking, which achieves a balance between performance and efficiency. Furthermore, we incorporate the pre-trained RGB tracking model into the framework and utilize multiple flexible prompt strategies to adapt the pre-trained model to the comprehensive exploration of uni-modal patterns and the improved modeling of fusion-modal features, harnessing the potential of prompt learning in RGB-T tracking. Our method outperforms the state-of-the-art methods on four challenging benchmarks, while attaining 46.1 fps inference speed.
Abstract（参考訳）: オブジェクト追跡の重要な下流タスクであるRGB-Tトラッキングは、近年顕著な進歩を遂げている。しかし、これは2つの大きな課題によって妨げられている。 1) 性能と効率のトレードオフ 2)トレーニングデータの不足。後者の課題に対処するために、近年の手法では、事前訓練されたRGB追跡モデルを微調整し、パラメータ効率の良い方法で上流の知識を活用するプロンプトが採用されている。しかし、これらの手法はモダリティに依存しないパターンを不適切に探求し、オープンシナリオにおける異なるモダリティの動的信頼性を無視する。我々は,中核融合とマルチモーダル・マルチステージ視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法であるM3PTを提案し,これらの課題を克服する。我々は,RGB-Tトラッキングにおける中間融合フレームワークの利用の先駆者であり,性能と効率のバランスを実現する。さらに、事前学習されたRGB追跡モデルをフレームワークに組み込み、複数のフレキシブルなプロンプト戦略を利用して、事前学習されたモデルを一様パターンの包括的探索や融合モーダル特徴のモデリングの改善に適応し、RGB-Tトラッキングにおける即時学習の可能性を活用する。提案手法は,46.1fpsの推論速度を達成しつつ,4つの挑戦的ベンチマークにおいて最先端の手法よりも優れている。

関連論文リスト

Diff-MM: Exploring Pre-trained Text-to-Image Generation Model for Unified Multi-modal Object Tracking [45.341224888996514]
マルチモーダルオブジェクトトラッキングは、深度、熱赤外、イベントフロー、言語などの補助的なモダリティを統合する。既存の手法は通常、RGBベースのトラッカーから始まり、トレーニングデータのみから補助的なモダリティを理解することを学ぶ。本研究では,事前学習したテキスト・ツー・イメージ生成モデルのマルチモーダル理解機能を利用して,統合されたマルチモーダル・トラッカーDiff-MMを提案する。
論文参考訳（メタデータ） (2025-05-19T01:42:13Z)
Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-16T03:19:59Z)
SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-24T04:15:50Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Unified Single-Stage Transformer Network for Efficient RGB-T Tracking [47.88113335927079]
我々は、上記3つのステージを単一のViT(Vision Transformer)バックボーンに統合するシングルステージのRGB-Tトラッキングネットワーク、すなわちUSTrackを提案する。この構造により、ネットワークは、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。 3つのRGB-T追跡ベンチマーク実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示す。
論文参考訳（メタデータ） (2023-08-26T05:09:57Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。 ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文参考訳（メタデータ） (2023-03-20T01:51:07Z)
Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。 ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文参考訳（メタデータ） (2022-07-29T09:35:02Z)
Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文参考訳（メタデータ） (2020-07-04T08:11:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。