論文の概要: Prompting for Multi-Modal Tracking
- arxiv url: http://arxiv.org/abs/2207.14571v2
- Date: Mon, 1 Aug 2022 02:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 11:03:19.581540
- Title: Prompting for Multi-Modal Tracking
- Title(参考訳): マルチモーダルトラッキングのためのプロンプト
- Authors: Jinyu Yang and Zhe Li and Feng Zheng and Ale\v{s} Leonardis and
Jingkuan Song
- Abstract要約: マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
- 参考スコア(独自算出の注目度): 70.0522146292258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal tracking gains attention due to its ability to be more accurate
and robust in complex scenarios compared to traditional RGB-based tracking. Its
key lies in how to fuse multi-modal data and reduce the gap between modalities.
However, multi-modal tracking still severely suffers from data deficiency, thus
resulting in the insufficient learning of fusion modules. Instead of building
such a fusion module, in this paper, we provide a new perspective on
multi-modal tracking by attaching importance to the multi-modal visual prompts.
We design a novel multi-modal prompt tracker (ProTrack), which can transfer the
multi-modal inputs to a single modality by the prompt paradigm. By best
employing the tracking ability of pre-trained RGB trackers learning at scale,
our ProTrack can achieve high-performance multi-modal tracking by only altering
the inputs, even without any extra training on multi-modal data. Extensive
experiments on 5 benchmark datasets demonstrate the effectiveness of the
proposed ProTrack.
- Abstract(参考訳): マルチモーダルトラッキングは、従来のrgbベースのトラッキングよりも複雑なシナリオで正確で堅牢であることから注目を集めている。
その鍵は、マルチモーダルデータを融合し、モダリティ間のギャップを減らす方法にある。
しかし、マルチモーダルトラッキングは依然としてデータ不足に苦しむため、融合モジュールの学習が不十分になる。
本稿では、このような融合モジュールを構築する代わりに、マルチモーダル視覚プロンプトに重きを置くことで、マルチモーダルトラッキングの新しい視点を提供する。
我々は,マルチモーダル入力をプロンプトパラダイムによって単一のモーダルに転送可能な,新しいマルチモーダルプロンプトトラッカ(protrack)を設計した。
事前学習したrgbトラッカの追跡能力を最大限に活用することで,マルチモーダルデータのトレーニングを必要とせずとも,入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
5つのベンチマークデータセットに関する広範な実験は、提案するprotrackの有効性を示している。
関連論文リスト
- SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking [9.20064374262956]
提案手法は,2次元検出器と3次元検出器のみを用いて,ロバストなトラッキングを実現する。
多くの最先端のTBDベースのマルチモーダルトラッキング手法よりも正確であることが証明されている。
論文 参考訳(メタデータ) (2023-04-18T02:45:18Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Multi-modal Visual Tracking: Review and Experimental Comparison [85.20414397784937]
マルチモーダルトラッキングアルゴリズム,特に可視深度(RGB-D)と可視温度(RGB-T)を要約する。
5つのデータセット上でトラッカーの有効性を分析する実験を行った。
論文 参考訳(メタデータ) (2020-12-08T02:39:38Z) - Unsupervised Multiple Person Tracking using AutoEncoder-Based Lifted
Multicuts [11.72025865314187]
最小限の視覚的特徴とリフトマルチカットに基づく教師なし多重物体追跡手法を提案する。
提案したアノテーションを使わずにトレーニングされているにもかかわらず,我々のモデルは,歩行者追跡のための挑戦的なMOTベンチマークにおいて,競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2020-02-04T09:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。