論文の概要: Unified Multimodal Visual Tracking with Dual Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2605.03716v1
- Date: Tue, 05 May 2026 13:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.939476
- Title: Unified Multimodal Visual Tracking with Dual Mixture-of-Experts
- Title(参考訳): Dual Mixture-of-Expertsを用いた統合マルチモーダルビジュアルトラッキング
- Authors: Lingyi Hong, Jinglun Li, Xinyu Zhou, Kaixun Jiang, Pinxue Guo, Zhaoyu Chen, Runze Li, Xingdong Sheng, Wenqiang Zhang,
- Abstract要約: OneV2は、あらゆるモダリティのエンドツーエンドトレーニングを可能にする統合マルチモーダルトラッキングフレームワークである。
OneV2は5つのRGB+Xトラッキングタスクと12のベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 48.73939694967044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal visual object tracking can be divided into to several kinds of tasks (e.g. RGB and RGB+X tracking), based on the input modality. Existing methods often train separate models for each modality or rely on pretrained models to adapt to new modalities, which limits efficiency, scalability, and usability. Thus, we introduce OneTrackerV2, a unified multi-modal tracking framework that enables end-to-end training for any modality. We propose Meta Merger to embed multi-modal information into a unified space, allowing flexible modality fusion and robustness. We further introduce Dual Mixture-of-Experts (DMoE): T-MoE models spatio-temporal relations for tracking, while M-MoE embeds multi-modal knowledge, disentangling cross-modal dependencies and reducing feature conflicts. With a shared architecture, unified parameters, and a single end-to-end training, OneTrackerV2 achieves state-of-the-art performance across five RGB and RGB+X tracking tasks and 12 benchmarks, while maintaining high inference efficiency. Notably, even after model compression, OneTrackerV2 retains strong performance. Moreover, OneTrackerV2 demonstrates remarkable robustness under modality-missing scenarios.
- Abstract(参考訳): マルチモーダル・ビジュアル・オブジェクト・トラッキングは入力のモダリティに基づいて複数のタスク(例えば RGB と RGB+X のトラッキング)に分割することができる。
既存の手法では、各モダリティごとに別々のモデルを訓練したり、新しいモダリティに適応するために事前訓練されたモデルを頼りにすることで、効率、スケーラビリティ、ユーザビリティを制限していることが多い。
そこで我々はOneTrackerV2を導入する。OneTrackerV2は、任意のモダリティに対してエンドツーエンドのトレーニングを可能にする統合されたマルチモーダルトラッキングフレームワークである。
本稿では,マルチモーダル情報を統一空間に埋め込むメタマーガーを提案し,柔軟性のあるモーダル融合とロバスト性を実現する。
さらに、T-MoEモデルでは、トラッキングのための時空間的関係を時空間的に表現し、M-MoEはマルチモーダルな知識を組み込んで、相互依存を解消し、機能衝突を減らす。
共有アーキテクチャ、統一パラメータ、単一のエンドツーエンドトレーニングにより、OneTrackerV2は5つのRGBおよびRGB+Xトラッキングタスクと12のベンチマークで最先端のパフォーマンスを実現し、高い推論効率を維持している。
特に、モデル圧縮後もOneTrackerV2は強力なパフォーマンスを維持している。
さらにOneTrackerV2は、モダリティを欠くシナリオにおいて、顕著な堅牢性を示している。
関連論文リスト
- Sparse-Dense Mixture of Experts Adapter for Multi-Modal Tracking [16.123153889076104]
本稿では,PEFTに基づくマルチモーダルトラッキングのためのSparse-Dense Mixture of Experts Adapter (SDMoEA) フレームワークを提案する。
マルチレベル多モード核融合における高次相関のモデル化における既存の追跡手法の限界を克服するため,Gram-based Semantic Alignment Hypergraph Fusion (GSAHF)モジュールを提案する。
提案手法は,複数のマルチモーダルトラッキングベンチマークにおいて,他のPEFT手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2026-03-14T02:51:10Z) - UBATrack: Spatio-Temporal State Space Model for General Multi-Modal Tracking [40.8191099453086]
UBATrackと呼ばれる,マンバスタイルの状態に基づく新しいマルチモーダルトラッキングフレームワークを提案する。
UBATrack は S-temporal Mamba Adapter (MA) と Dynamic Multi-modal Feature Mixer の2つの単純かつ効果的な作業空間から構成されている。
実験により、UBATrackはRGB-T、RGB-D、RGB-E追跡ベンチマークにおいて最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2026-01-21T09:24:19Z) - Adaptive Perception for Unified Visual Multi-modal Object Tracking [35.80808788962743]
APTrackは、マルチモーダル適応認識のために設計された新しい統合トラッカーである。
従来の方法とは異なり、APTrackは等価なモデリング戦略を通じて統一された表現を模索している。
我々のトラッカーは適応的なモーダリティ相互作用モジュールを統合し、モーダリティ間の相互作用を効率的にブリッジする。
論文 参考訳(メタデータ) (2025-02-10T15:50:26Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。