論文の概要: Learning Progressive Adaptation for Multi-Modal Tracking
- arxiv url: http://arxiv.org/abs/2603.21100v1
- Date: Sun, 22 Mar 2026 07:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.23817
- Title: Learning Progressive Adaptation for Multi-Modal Tracking
- Title(参考訳): マルチモーダルトラッキングのためのプログレッシブ適応学習
- Authors: He Wang, Tianyang Xu, Zhangyong Tang, Xiao-Jun Wu, Josef Kittler,
- Abstract要約: マルチモーダルトラッカーは通常、パラメータ効率の良い微調整モジュールを備えた事前訓練されたRGBモデルを採用することで構築される。
この問題に対処するため,マルチモーダルトラッキング(PATrack)のためのプログレッシブ・アダプタ(Progressive Adaptation)を提案する。
この革新的なアプローチは、モダリティに依存し、モダリティに絡み合った、タスクレベルのアダプタを取り入れ、マルチモーダルデータにRGB事前学習ネットワークを適用する際のギャップを効果的に埋める。
- 参考スコア(独自算出の注目度): 67.50696675353451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the limited availability of paired multi-modal data, multi-modal trackers are typically built by adopting pre-trained RGB models with parameter-efficient fine-tuning modules. However, these fine-tuning methods overlook advanced adaptations for applying RGB pre-trained models and fail to modulate a single specific modality, cross-modal interactions, and the prediction head. To address the issues, we propose to perform Progressive Adaptation for Multi-Modal Tracking (PATrack). This innovative approach incorporates modality-dependent, modality-entangled, and task-level adapters, effectively bridging the gap in adapting RGB pre-trained networks to multi-modal data through a progressive strategy. Specifically, modality-specific information is enhanced through the modality-dependent adapter, decomposing the high- and low-frequency components, which ensures a more robust feature representation within each modality. The inter-modal interactions are introduced in the modality-entangled adapter, which implements a cross-attention operation guided by inter-modal shared information, ensuring the reliability of features conveyed between modalities. Additionally, recognising that the strong inductive bias of the prediction head does not adapt to the fused information, a task-level adapter specific to the prediction head is introduced. In summary, our design integrates intra-modal, inter-modal, and task-level adapters into a unified framework. Extensive experiments on RGB+Thermal, RGB+Depth, and RGB+Event tracking tasks demonstrate that our method shows impressive performance against state-of-the-art methods. Code is available at https://github.com/ouha1998/Learning-Progressive-Adaptation-for-Multi-Modal-Tracking.
- Abstract(参考訳): ペア化されたマルチモーダルデータの可用性が限られているため、マルチモーダルトラッカーは通常、パラメータ効率の良い微調整モジュールを備えた事前訓練されたRGBモデルを採用することで構築される。
しかし、これらの微調整手法は、RGB事前訓練モデルを適用するための高度な適応を見落とし、単一の特定のモダリティ、相互モーダル相互作用、予測ヘッドを変調することができない。
この問題に対処するため,我々はPATrack(Progressive Adaptation for Multi-Modal Tracking)を提案する。
この革新的なアプローチは、モダリティに依存し、モダリティに絡み合った、タスクレベルのアダプタを取り入れ、プログレッシブ戦略を通じて、RGB事前学習ネットワークをマルチモーダルデータに適用する際のギャップを効果的に埋める。
具体的には、モダリティ依存アダプタを通じて、高周波数成分と低周波数成分を分解することにより、各モダリティ内のより堅牢な特徴表現を保証する。
モーダル間相互作用は、モーダル間で伝達される特徴の信頼性を確保するために、モーダル間共有情報によって案内されるクロスアテンション操作を実装したモダリティ-絡み合ったアダプタで導入される。
また、予測ヘッドの強い帰納バイアスが融合情報に適応しないことを認識し、予測ヘッド固有のタスクレベルアダプタを導入する。
まとめると、我々の設計は、モダル内、モダル間、タスクレベルのアダプタを統一されたフレームワークに統合する。
RGB+Thermal,RGB+Depth,RGB+Eventトラッキングタスクの大規模な実験により,本手法が最先端手法に対して優れた性能を示した。
コードはhttps://github.com/ouha1998/Learning-Progressive-Adaptation-for-Multi-Modal-Trackingで公開されている。
関連論文リスト
- Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - Diff-MM: Exploring Pre-trained Text-to-Image Generation Model for Unified Multi-modal Object Tracking [45.341224888996514]
マルチモーダルオブジェクトトラッキングは、深度、熱赤外、イベントフロー、言語などの補助的なモダリティを統合する。
既存の手法は通常、RGBベースのトラッカーから始まり、トレーニングデータのみから補助的なモダリティを理解することを学ぶ。
本研究では,事前学習したテキスト・ツー・イメージ生成モデルのマルチモーダル理解機能を利用して,統合されたマルチモーダル・トラッカーDiff-MMを提案する。
論文 参考訳(メタデータ) (2025-05-19T01:42:13Z) - VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - CM2-Net: Continual Cross-Modal Mapping Network for Driver Action Recognition [11.918982714404025]
本稿では,新たにやってくる各モダリティを継続的に学習する連続的クロスモーダルマッピングネットワーク(CM2-Net)を提案する。
我々は,識別的・情報的特徴を地図化するために,累積クロスモーダルマッピング・プロンプト(ACMP)を開発した。
Drive&Actデータセットで行った実験は、ユニモーダルドライバとマルチモーダルドライバの両方でCM2-Netの性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T08:57:00Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。