論文の概要: Visual and Memory Dual Adapter for Multi-Modal Object Tracking
- arxiv url: http://arxiv.org/abs/2506.23972v1
- Date: Mon, 30 Jun 2025 15:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.132079
- Title: Visual and Memory Dual Adapter for Multi-Modal Object Tracking
- Title(参考訳): マルチモーダル物体追跡のためのビジュアル・メモリデュアルアダプタ
- Authors: Boyue Xu, Ruichao Hou, Tongwei Ren, Gangshan Wu,
- Abstract要約: マルチモーダルトラッキングのためのより堅牢な表現を構築するために,新しいビジュアル・メモリ二重アダプタ(VMDA)を提案する。
我々は,識別的手がかりを補助的モダリティから支配的モダリティへ適応的に伝達する,シンプルだが効果的なビジュアルアダプターを開発した。
また、グローバルな時間的手がかりを記憶し、動的更新および検索操作を行うヒューマンメモリ機構にインスパイアされたメモリアダプタを設計する。
- 参考スコア(独自算出の注目度): 34.406308400305385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-learning-based multi-modal trackers have achieved promising progress by employing lightweight visual adapters to incorporate auxiliary modality features into frozen foundation models. However, existing approaches often struggle to learn reliable prompts due to limited exploitation of critical cues across frequency and temporal domains. In this paper, we propose a novel visual and memory dual adapter (VMDA) to construct more robust and discriminative representations for multi-modal tracking. Specifically, we develop a simple but effective visual adapter that adaptively transfers discriminative cues from auxiliary modality to dominant modality by jointly modeling the frequency, spatial, and channel-wise features. Additionally, we design the memory adapter inspired by the human memory mechanism, which stores global temporal cues and performs dynamic update and retrieval operations to ensure the consistent propagation of reliable temporal information across video sequences. Extensive experiments demonstrate that our method achieves state-of-the-art performance on the various multi-modal tracking tasks, including RGB-Thermal, RGB-Depth, and RGB-Event tracking. Code and models are available at https://github.com/xuboyue1999/mmtrack.git.
- Abstract(参考訳): プロンプト学習に基づくマルチモーダルトラッカーは、補助的なモーダル特徴を冷凍基礎モデルに組み込むために軽量なビジュアルアダプタを採用することで、有望な進歩を遂げている。
しかし、既存のアプローチは、周波数領域と時間領域にわたるクリティカルキューの限られた利用のために、信頼できるプロンプトを学ぶのに苦労することが多い。
本稿では,マルチモーダルトラッキングのためのより堅牢で差別的な表現を構築するために,新しいビジュアル・メモリ二重アダプタ(VMDA)を提案する。
具体的には, 周波数, 空間, チャネルワイドの特徴を共同でモデル化することにより, 識別的キューを補助的モダリティから支配的モダリティに適応的に変換する, 単純かつ効果的な視覚適応器を開発した。
さらに,グローバルな時間的手がかりを記憶し,動的更新・検索操作を行うヒューマンメモリ機構にインスパイアされたメモリアダプタを設計し,ビデオシーケンス間の信頼性の高い時間的情報の一貫した伝播を保証する。
本手法は,RGB-Thermal,RGB-Depth,RGB-Eventトラッキングなど,多モードトラッキングタスクにおける最先端性能を実現する。
コードとモデルはhttps://github.com/xuboyue 1999/mmtrack.gitで入手できる。
関連論文リスト
- Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking [9.353589376846902]
線形複雑ビジョン・マンバネットワークに基づく効率的なRGB-Eventオブジェクト追跡フレームワークを提案する。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/Mamba_FETrack.comで公開される。
論文 参考訳(メタデータ) (2025-06-30T12:24:01Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。