論文の概要: UniSOT: A Unified Framework for Multi-Modality Single Object Tracking
- arxiv url: http://arxiv.org/abs/2511.01427v1
- Date: Mon, 03 Nov 2025 10:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.221586
- Title: UniSOT: A Unified Framework for Multi-Modality Single Object Tracking
- Title(参考訳): UniSOT: マルチモーダルな単一オブジェクト追跡のための統一フレームワーク
- Authors: Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang, Xu Zhou, Feng Wu,
- Abstract要約: 3つの参照モダリティと4つのビデオモダリティを一様パラメータで組み合わせた統合トラッカーUniSOTを提案する。
UniSOTは、モダリティ固有の性能に対して優れたパフォーマンスを示す。
特に、UniSOTは、TNL2K上の3つの参照モダリティと3つのRGB+Xビデオモダリティの全てで、以前のものと比べ3.0%以上のAUCで、Un-Trackを2.0%以上のメインメトリックで上回っている。
- 参考スコア(独自算出の注目度): 60.21741689231572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single object tracking aims to localize target object with specific reference modalities (bounding box, natural language or both) in a sequence of specific video modalities (RGB, RGB+Depth, RGB+Thermal or RGB+Event.). Different reference modalities enable various human-machine interactions, and different video modalities are demanded in complex scenarios to enhance tracking robustness. Existing trackers are designed for single or several video modalities with single or several reference modalities, which leads to separate model designs and limits practical applications. Practically, a unified tracker is needed to handle various requirements. To the best of our knowledge, there is still no tracker that can perform tracking with these above reference modalities across these video modalities simultaneously. Thus, in this paper, we present a unified tracker, UniSOT, for different combinations of three reference modalities and four video modalities with uniform parameters. Extensive experimental results on 18 visual tracking, vision-language tracking and RGB+X tracking benchmarks demonstrate that UniSOT shows superior performance against modality-specific counterparts. Notably, UniSOT outperforms previous counterparts by over 3.0\% AUC on TNL2K across all three reference modalities and outperforms Un-Track by over 2.0\% main metric across all three RGB+X video modalities.
- Abstract(参考訳): 単一のオブジェクト追跡は、特定の参照モダリティ(バウンディングボックス、自然言語または両方)を特定のビデオモダリティ(RGB、RGB+Depth、RGB+Thermal、RGB+Event)のシーケンスにローカライズすることを目的としている。
異なる参照モダリティは、様々な人間と機械の相互作用を可能にし、異なるビデオモダリティは、追跡ロバスト性を高めるために複雑なシナリオで要求される。
既存のトラッカーは、単一のまたは複数の参照モダリティを持つ単一のまたは複数のビデオモダリティのために設計されている。
実際には、様々な要求に対処するために統合トラッカーが必要である。
我々の知る限り、上記の基準モードを同時に追跡できるトラッカーはいまだに存在しない。
そこで本研究では,3つの参照モードと4つのビデオモードを一様パラメータで組み合わせた統合トラッカーUniSOTを提案する。
18の視覚的追跡、視覚言語追跡、RGB+X追跡ベンチマークによる大規模な実験結果から、UniSOTは、モダリティ固有の指標よりも優れた性能を示すことが示された。
特に、UniSOTは、TNL2K上の以前の3つの参照モダリティと3つのRGB+Xビデオモダリティの合計で2.0\%以上のメインメトリックで、3.0\% AUCを上回り、Un-Trackを上回ります。
関連論文リスト
- Towards Universal Modal Tracking with Online Dense Temporal Token Learning [66.83607018706519]
オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。
モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
論文 参考訳(メタデータ) (2025-07-27T08:47:42Z) - Unifying Visual and Vision-Language Tracking via Contrastive Learning [34.49865598433915]
単一のオブジェクト追跡は、異なるモーダル参照に従って、ビデオシーケンス内の対象オブジェクトを特定することを目的としている。
異なるモダリティ間のギャップのため、既存のトラッカーのほとんどは、これらの参照設定の単一または部分のために設計されている。
3つの参照設定を同時に処理できるUVLTrackという統合トラッカーを提案する。
論文 参考訳(メタデータ) (2024-01-20T13:20:54Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。