論文の概要: Single-Model and Any-Modality for Video Object Tracking
- arxiv url: http://arxiv.org/abs/2311.15851v1
- Date: Mon, 27 Nov 2023 14:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:07:38.381328
- Title: Single-Model and Any-Modality for Video Object Tracking
- Title(参考訳): ビデオオブジェクト追跡のための単一モデルとany-modality
- Authors: Zongwei Wu, Jilai Zheng, Xiangxuan Ren, Florin-Alexandru Vasluianu,
Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte
- Abstract要約: 任意のモダリティに対して単一のパラメータセットのアンダーライン統一トラッカーであるUn-Trackを導入する。
提案手法は,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
- 参考スコア(独自算出の注目度): 88.69362572728218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of video object tracking, auxiliary modalities such as depth,
thermal, or event data have emerged as valuable assets to complement the RGB
trackers. In practice, most existing RGB trackers learn a single set of
parameters to use them across datasets and applications. However, a similar
single-model unification for multi-modality tracking presents several
challenges. These challenges stem from the inherent heterogeneity of inputs --
each with modality-specific representations, the scarcity of multi-modal
datasets, and the absence of all the modalities at all times. In this work, we
introduce Un-Track, a \underline{Un}ified Tracker of a single set of parameters
for any modality. To handle any modality, our method learns their common latent
space through low-rank factorization and reconstruction techniques. More
importantly, we use only the RGB-X pairs to learn the common latent space. This
unique shared representation seamlessly binds all modalities together, enabling
effective unification and accommodating any missing modality, all within a
single transformer-based architecture and without the need for
modality-specific fine-tuning. Our Un-Track achieves +8.1 absolute F-score
gain, on the DepthTrack dataset, by introducing only +2.14 (over 21.50) GFLOPs
with +6.6M (over 93M) parameters, through a simple yet efficient prompting
strategy. Extensive comparisons on five benchmark datasets with different
modalities show that Un-Track surpasses both SOTA unified trackers and
modality-specific finetuned counterparts, validating our effectiveness and
practicality.
- Abstract(参考訳): ビデオオブジェクト追跡の分野では、RGBトラッカーを補完する貴重な資産として、深度、熱、イベントデータなどの補助的なモダリティが出現している。
実際には、既存のRGBトラッカーのほとんどは、データセットやアプリケーション間で使用するためのパラメータセットを1セット学習している。
しかし、類似したマルチモーダリティ追跡のための単一モデル統一はいくつかの課題を呈している。
これらの課題は、入力の固有の不均一性 - モダリティ固有の表現、マルチモーダルデータセットの不足、そして常にすべてのモダリティがないことに由来する。
本研究では,任意のモダリティに対するパラメータセットの単一集合のアンダーライン{Un}ified TrackerであるUn-Trackを紹介する。
任意のモダリティを扱うために,本手法は低位因子分解と再構成技術を用いて,共通の潜在空間を学習する。
さらに重要なのは、RGB-Xペアのみを使用して、一般的な潜在空間を学習することです。
このユニークな共有表現は、すべてのモダリティをシームレスに結合し、効率的な統一と、欠落したモダリティの調整を可能にする。
我々のUn-Trackは2.14(21.50以上)のGFLOPと+6.6M(93M以上)のパラメータのみを導入し、DepthTrackデータセットで+8.1絶対Fスコアゲインを達成した。
異なるモダリティを持つ5つのベンチマークデータセットの大規模な比較では、Un-TrackはSOTA統合トラッカーとモダリティ固有の微調整の双方を上回り、我々の有効性と実用性を検証する。
関連論文リスト
- Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Revisiting Color-Event based Tracking: A Unified Network, Dataset, and
Metric [53.88188265943762]
上記の機能を同時に実現したCEUTrack(Color-Event Unified Tracking)のためのシングルステージバックボーンネットワークを提案する。
提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。
論文 参考訳(メタデータ) (2022-11-20T16:01:31Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Discriminative Appearance Modeling with Multi-track Pooling for
Real-time Multi-object Tracking [20.66906781151]
マルチオブジェクトトラッキングでは、トラッカーはそのメモリ内にシーンの各オブジェクトの外観と動き情報を保持する。
多くのアプローチは、それぞれのターゲットを分離してモデル化し、シーン内のすべてのターゲットを使用してメモリを共同で更新する能力がない。
オンライン上でハードトラッキングのエピソードを生成するマルチトラックプーリングに適応したトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-28T18:12:39Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。