論文の概要: What You Have is What You Track: Adaptive and Robust Multimodal Tracking
- arxiv url: http://arxiv.org/abs/2507.05899v1
- Date: Tue, 08 Jul 2025 11:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.949016
- Title: What You Have is What You Track: Adaptive and Robust Multimodal Tracking
- Title(参考訳): アダプティブでロバストなマルチモーダルトラッキング
- Authors: Yuedong Tan, Jiawei Shao, Eduard Zamfir, Ruanjun Li, Zhaochong An, Chao Ma, Danda Paudel, Luc Van Gool, Radu Timofte, Zongwei Wu,
- Abstract要約: 本研究では,時間的に不完全なマルチモーダルデータを用いたトラッカー性能に関する総合的研究を行った。
我々のモデルは9つのベンチマークでSOTA性能を達成し、従来の完全性と欠落したモダリティ設定の両方で優れている。
- 参考スコア(独自算出の注目度): 72.92244578461869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal data is known to be helpful for visual tracking by improving robustness to appearance variations. However, sensor synchronization challenges often compromise data availability, particularly in video settings where shortages can be temporal. Despite its importance, this area remains underexplored. In this paper, we present the first comprehensive study on tracker performance with temporally incomplete multimodal data. Unsurprisingly, under such a circumstance, existing trackers exhibit significant performance degradation, as their rigid architectures lack the adaptability needed to effectively handle missing modalities. To address these limitations, we propose a flexible framework for robust multimodal tracking. We venture that a tracker should dynamically activate computational units based on missing data rates. This is achieved through a novel Heterogeneous Mixture-of-Experts fusion mechanism with adaptive complexity, coupled with a video-level masking strategy that ensures both temporal consistency and spatial completeness which is critical for effective video tracking. Surprisingly, our model not only adapts to varying missing rates but also adjusts to scene complexity. Extensive experiments show that our model achieves SOTA performance across 9 benchmarks, excelling in both conventional complete and missing modality settings. The code and benchmark will be publicly available at https://github.com/supertyd/FlexTrack/tree/main.
- Abstract(参考訳): マルチモーダルデータは、外観変化に対するロバスト性を改善することにより、視覚的追跡に役立つことが知られている。
しかし、センサー同期の課題はしばしばデータの可用性を損なう。
その重要性にもかかわらず、この地域は未探検のままである。
本稿では、時間的に不完全なマルチモーダルデータを用いたトラッカー性能に関する最初の総合的研究について述べる。
このような状況下では、既存のトラッカーは、その厳密なアーキテクチャは、欠落したモダリティを効果的に処理するために必要な適応性に欠けるため、大幅な性能低下を示す。
これらの制約に対処するため,ロバストなマルチモーダルトラッキングのためのフレキシブルなフレームワークを提案する。
トラッカーは、欠落したデータ率に基づいて、動的に計算ユニットを活性化すべきである。
これは、適応的な複雑さを持つ新しいヘテロジニアス・ミックス・オブ・エキスパート融合機構と、効果的なビデオトラッキングに不可欠な時間的一貫性と空間的完全性の両方を保証するビデオレベルのマスキング戦略を組み合わせることで実現される。
驚いたことに、我々のモデルは様々な欠落率に適応するだけでなく、シーンの複雑さにも適応する。
9つのベンチマークでSOTA性能を実現し,従来の完全性と欠如性の両方に優れていた。
コードとベンチマークはhttps://github.com/supertyd/FlexTrack/tree/mainで公開される。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。