論文の概要: Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking
- arxiv url: http://arxiv.org/abs/2506.23972v2
- Date: Wed, 01 Oct 2025 13:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.651231
- Title: Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking
- Title(参考訳): マルチモーダル物体追跡のための学習周波数とメモリ・アウェア・プロンプト
- Authors: Boyue Xu, Ruichao Hou, Tongwei Ren, Dongming zhou, Gangshan Wu, Jinde Cao,
- Abstract要約: 凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
- 参考スコア(独自算出の注目度): 74.15663758681849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-learning-based multi-modal trackers have made strong progress by using lightweight visual adapters to inject auxiliary-modality cues into frozen foundation models. However, they still underutilize two essentials: modality-specific frequency structure and long-range temporal dependencies. We present Learning Frequency and Memory-Aware Prompts, a dual-adapter framework that injects lightweight prompts into a frozen RGB tracker. A frequency-guided visual adapter adaptively transfers complementary cues across modalities by jointly calibrating spatial, channel, and frequency components, narrowing the modality gap without full fine-tuning. A multilevel memory adapter with short, long, and permanent memory stores, updates, and retrieves reliable temporal context, enabling consistent propagation across frames and robust recovery from occlusion, motion blur, and illumination changes. This unified design preserves the efficiency of prompt learning while strengthening cross-modal interaction and temporal coherence. Extensive experiments on RGB-Thermal, RGB-Depth, and RGB-Event benchmarks show consistent state-of-the-art results over fully fine-tuned and adapter-based baselines, together with favorable parameter efficiency and runtime. Code and models are available at https://github.com/xuboyue1999/mmtrack.git.
- Abstract(参考訳): プロンプト学習に基づくマルチモーダルトラッカーは、軽量なビジュアルアダプタを使用して、凍結基礎モデルに補助モダリティキューを注入することで、大きな進歩を遂げている。
しかし、それらはまだモダリティ固有の周波数構造と長距離時間依存性の2つの必須要素を未利用である。
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型視覚適応器は、空間、チャネル、周波数成分を共同に調整し、完全な微調整なしでモダリティギャップを狭めることで、相補的キューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリを格納したマルチレベルメモリアダプタは、信頼できる時間的コンテキストを更新し、フレーム間の一貫した伝搬を可能にし、オクルージョン、モーションボケ、照明変更からの堅牢な回復を可能にする。
この統一された設計は、モーダル間相互作用と時間的コヒーレンスを強化しながら、迅速な学習の効率を保っている。
RGB-Thermal、RGB-Depth、RGB-Eventベンチマークの大規模な実験では、パラメータ効率と実行時間とともに、完全に微調整された、アダプタベースのベースラインに対して一貫した結果が示されている。
コードとモデルはhttps://github.com/xuboyue 1999/mmtrack.gitで入手できる。
関連論文リスト
- Towards Universal Modal Tracking with Online Dense Temporal Token Learning [66.83607018706519]
オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。
モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
論文 参考訳(メタデータ) (2025-07-27T08:47:42Z) - Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking [9.353589376846902]
線形複雑ビジョン・マンバネットワークに基づく効率的なRGB-Eventオブジェクト追跡フレームワークを提案する。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/Mamba_FETrack.comで公開される。
論文 参考訳(メタデータ) (2025-06-30T12:24:01Z) - Diff-MM: Exploring Pre-trained Text-to-Image Generation Model for Unified Multi-modal Object Tracking [45.341224888996514]
マルチモーダルオブジェクトトラッキングは、深度、熱赤外、イベントフロー、言語などの補助的なモダリティを統合する。
既存の手法は通常、RGBベースのトラッカーから始まり、トレーニングデータのみから補助的なモダリティを理解することを学ぶ。
本研究では,事前学習したテキスト・ツー・イメージ生成モデルのマルチモーダル理解機能を利用して,統合されたマルチモーダル・トラッカーDiff-MMを提案する。
論文 参考訳(メタデータ) (2025-05-19T01:42:13Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。