論文の概要: UASTrack: A Unified Adaptive Selection Framework with Modality-Customization in Single Object Tracking
- arxiv url: http://arxiv.org/abs/2502.18220v1
- Date: Tue, 25 Feb 2025 14:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:00.128022
- Title: UASTrack: A Unified Adaptive Selection Framework with Modality-Customization in Single Object Tracking
- Title(参考訳): UASTrack: 単一オブジェクト追跡におけるモダリティカスタマイズを備えた統一適応選択フレームワーク
- Authors: He Wang, Tianyang Xu, Zhangyong Tang, Xiao-Jun Wu, Josef Kittler,
- Abstract要約: 単一対象追跡(SOT)においてマルチモーダルトラッキングは不可欠である
既存のRGB-Xトラッカー(Xは深度、事象、熱モダリティを表す)は、個々のRGB-Xイメージペアに対するタスク固有のトレーニング戦略に依存するか、現実のアプリケーションにおけるモダリティ適応的知覚の重要な重要性に対処できないかのいずれかである。
モデルとパラメータの一体化を容易にする統一適応選択フレームワークであるUASTrackを提案する。
- 参考スコア(独自算出の注目度): 38.307090917666144
- License:
- Abstract: Multi-modal tracking is essential in single-object tracking (SOT), as different sensor types contribute unique capabilities to overcome challenges caused by variations in object appearance. However, existing unified RGB-X trackers (X represents depth, event, or thermal modality) either rely on the task-specific training strategy for individual RGB-X image pairs or fail to address the critical importance of modality-adaptive perception in real-world applications. In this work, we propose UASTrack, a unified adaptive selection framework that facilitates both model and parameter unification, as well as adaptive modality discrimination across various multi-modal tracking tasks. To achieve modality-adaptive perception in joint RGB-X pairs, we design a Discriminative Auto-Selector (DAS) capable of identifying modality labels, thereby distinguishing the data distributions of auxiliary modalities. Furthermore, we propose a Task-Customized Optimization Adapter (TCOA) tailored to various modalities in the latent space. This strategy effectively filters noise redundancy and mitigates background interference based on the specific characteristics of each modality. Extensive comparisons conducted on five benchmarks including LasHeR, GTOT, RGBT234, VisEvent, and DepthTrack, covering RGB-T, RGB-E, and RGB-D tracking scenarios, demonstrate our innovative approach achieves comparative performance by introducing only additional training parameters of 1.87M and flops of 1.95G. The code will be available at https://github.com/wanghe/UASTrack.
- Abstract(参考訳): 単一対象追跡(SOT)では、さまざまなセンサタイプが、オブジェクトの外観の変化に起因する課題を克服するために、ユニークな機能に貢献しているため、マルチモーダルトラッキングが不可欠である。
しかし、既存の統合RGB-Xトラッカー(Xは深度、事象、熱モダリティを表す)は、個々のRGB-Xイメージペアに対するタスク固有のトレーニング戦略に依存するか、現実のアプリケーションにおけるモダリティ適応的知覚の重要な重要性に対処できないかのいずれかである。
本研究では,モデルとパラメータの一体化を容易にする統一適応選択フレームワークであるUASTrackを提案する。
共同RGB-Xペアにおけるモダリティ適応認識を実現するために,モータリティラベルを識別できる識別オートセレクタ(DAS)を設計し,補助モータリティのデータ分布を識別する。
さらに,タスクカスタマイズ最適化アダプタ (TCOA) を提案する。
この戦略は、雑音の冗長性を効果的にフィルタリングし、各モードの特定の特性に基づいて背景干渉を緩和する。
LasHeR, GTOT, RGBT234, VisEvent, DepthTrackの5つのベンチマークで実施された大規模な比較では、RGB-T, RGB-E, RGB-D追跡シナリオがカバーされており、我々の革新的なアプローチは、1.87Mのトレーニングパラメータと1.95Gのフロップのみを導入することで、比較性能を達成することを実証している。
コードはhttps://github.com/wanghe/UASTrack.comから入手できる。
関連論文リスト
- VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification [0.6675805308519986]
Visible-infrared person re-identification (VI-reID) は、視界や赤外線カメラで捉えた、モダリティの横断的な歩行者像のマッチングを目的としている。
VI-ReIDのタスクに対して,パラメータ階層最適化(PHO)手法を新たに提案する。
これにより、パラメータの検索スペースを狭め、ネットワーク全体をトレーニングしやすくする。
論文 参考訳(メタデータ) (2024-04-11T17:27:39Z) - SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。