論文の概要: DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter
- arxiv url: http://arxiv.org/abs/2508.01592v1
- Date: Sun, 03 Aug 2025 05:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.958506
- Title: DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter
- Title(参考訳): DMTrack: デュアルアダプタによる時空間マルチモーダルトラッキング
- Authors: Weihong Li, Shaohua Dong, Haonan Lu, Yanhao Zhang, Heng Fan, Libo Zhang,
- Abstract要約: DMTrackと呼ばれるマルチモーダルトラッキングのための新しいデュアルテンポラルアーキテクチャを導入する。
設計は、単にbfbf0.93Mのトレーニング可能なパラメータで、有望なマルチモーダルトラッキング性能を実現する。
5つのベンチマークの実験は、DMTrackが最先端の結果を達成していることを示している。
- 参考スコア(独自算出の注目度): 27.594612913364447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore adapter tuning and introduce a novel dual-adapter architecture for spatio-temporal multimodal tracking, dubbed DMTrack. The key of our DMTrack lies in two simple yet effective modules, including a spatio-temporal modality adapter (STMA) and a progressive modality complementary adapter (PMCA) module. The former, applied to each modality alone, aims to adjust spatio-temporal features extracted from a frozen backbone by self-prompting, which to some extent can bridge the gap between different modalities and thus allows better cross-modality fusion. The latter seeks to facilitate cross-modality prompting progressively with two specially designed pixel-wise shallow and deep adapters. The shallow adapter employs shared parameters between the two modalities, aiming to bridge the information flow between the two modality branches, thereby laying the foundation for following modality fusion, while the deep adapter modulates the preliminarily fused information flow with pixel-wise inner-modal attention and further generates modality-aware prompts through pixel-wise inter-modal attention. With such designs, DMTrack achieves promising spatio-temporal multimodal tracking performance with merely \textbf{0.93M} trainable parameters. Extensive experiments on five benchmarks show that DMTrack achieves state-of-the-art results. Code will be available.
- Abstract(参考訳): 本稿では,DMTrackと呼ばれる時空間マルチモーダルトラッキングのための新しいデュアルアダプタアーキテクチャを提案する。
DMTrackの鍵は、時空間適応(STMA)とプログレッシブモダリティ補完アダプタ(PMCA)モジュールを含む、単純で効果的な2つのモジュールにある。
前者は、各モダリティにのみ適用され、自己プロンピングによって凍結したバックボーンから抽出された時空間的特徴を調整することを目的としており、これはある程度異なるモダリティ間のギャップを埋めることによって、より優れたモダリティ融合を可能にする。
後者は、特別に設計された2つのピクセル幅の浅みと深みのあるアダプタで、クロスモダリティを促進することを目指している。
浅層アダプタは、2つのモード間の共有パラメータを使用し、2つのモード間の情報フローをブリッジし、それによって2つのモード間の情報フローを後続のモダリティ融合の基礎として配置する一方、深層アダプタは、予め融合した情報フローを画素単位のインナーモーダルアテンションで変調し、さらに画素単位のインナーモーダルアテンションを介してモダリティ認識プロンプトを生成する。
このような設計により、DMTrack は単に \textbf{0.93M} のトレーニング可能なパラメータで、有望な時空間マルチモーダル追跡性能を達成する。
5つのベンチマークの大規模な実験は、DMTrackが最先端の結果を達成していることを示している。
コードは利用可能です。
関連論文リスト
- FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Visual and Memory Dual Adapter for Multi-Modal Object Tracking [34.406308400305385]
マルチモーダルトラッキングのためのより堅牢な表現を構築するために,新しいビジュアル・メモリ二重アダプタ(VMDA)を提案する。
我々は,識別的手がかりを補助的モダリティから支配的モダリティへ適応的に伝達する,シンプルだが効果的なビジュアルアダプターを開発した。
また、グローバルな時間的手がかりを記憶し、動的更新および検索操作を行うヒューマンメモリ機構にインスパイアされたメモリアダプタを設計する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking [9.353589376846902]
線形複雑ビジョン・マンバネットワークに基づく効率的なRGB-Eventオブジェクト追跡フレームワークを提案する。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/Mamba_FETrack.comで公開される。
論文 参考訳(メタデータ) (2025-06-30T12:24:01Z) - CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking [68.24998698508344]
CAMELはコンテキスト対応型マルチキューExpLoitationのための新しいアソシエイトモジュールである。
エンド・ツー・エンドの検知・バイ・トラック方式とは異なり,本手法は軽量かつ高速にトレーニングが可能であり,外部のオフ・ザ・シェルフモデルを活用することができる。
提案するオンライントラッキングパイプラインであるCAMELTrackは,複数のトラッキングベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-02T13:26:23Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。