論文の概要: Visual Prompt Multi-Modal Tracking
- arxiv url: http://arxiv.org/abs/2303.10826v1
- Date: Mon, 20 Mar 2023 01:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:58:00.810399
- Title: Visual Prompt Multi-Modal Tracking
- Title(参考訳): 視覚プロンプトマルチモーダルトラッキング
- Authors: Jiawen Zhu, Simiao Lai, Xin Chen, Dong Wang, Huchuan Lu
- Abstract要約: Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
- 参考スコア(独自算出の注目度): 71.53972967568251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-modal object tracking gives rise to a series of downstream
multi-modal tracking tributaries. To inherit the powerful representations of
the foundation model, a natural modus operandi for multi-modal tracking is full
fine-tuning on the RGB-based parameters. Albeit effective, this manner is not
optimal due to the scarcity of downstream data and poor transferability, etc.
In this paper, inspired by the recent success of the prompt learning in
language models, we develop Visual Prompt multi-modal Tracking (ViPT), which
learns the modal-relevant prompts to adapt the frozen pre-trained foundation
model to various downstream multimodal tracking tasks. ViPT finds a better way
to stimulate the knowledge of the RGB-based model that is pre-trained at scale,
meanwhile only introducing a few trainable parameters (less than 1% of model
parameters). ViPT outperforms the full fine-tuning paradigm on multiple
downstream tracking tasks including RGB+Depth, RGB+Thermal, and RGB+Event
tracking. Extensive experiments show the potential of visual prompt learning
for multi-modal tracking, and ViPT can achieve state-of-the-art performance
while satisfying parameter efficiency. Code and models are available at
https://github.com/jiawen-zhu/ViPT.
- Abstract(参考訳): Visible-Modalオブジェクトトラッキングは、一連の下流のマルチモーダルトラッキング支流を引き起こす。
基礎モデルの強力な表現を継承するために、マルチモーダルトラッキングのための自然なモードオペランドディは、RGBベースのパラメータをフルチューニングする。
効果はあるものの、下流データの不足や転送性が低いなど、この方法は最適ではない。
本稿では,近年の言語モデルにおけるプロンプト学習の成功に触発されて,様々な下流のマルチモーダル追跡タスクに凍った基礎モデルを適用するためのモーダル関連プロンプトを学習する視覚プロンプトマルチモーダルトラッキング(vipt)を開発した。
ViPTは、スケールで事前トレーニングされているRGBベースのモデルの知識を刺激するより良い方法を見つける一方で、トレーニング可能なパラメータ(モデルのパラメータの1%未満)をわずかに導入する。
viptは、rgb+depth、rgb+thermal、rgb+event trackingなど、複数のダウンストリームトラッキングタスクの完全な微調整パラダイムを上回る。
広範囲な実験により、マルチモーダルトラッキングのための視覚的プロンプト学習の可能性を示し、viptはパラメータ効率を満足しながら最先端のパフォーマンスを達成できる。
コードとモデルはhttps://github.com/jiawen-zhu/viptで入手できる。
関連論文リスト
- Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking [1.8843687952462744]
M3PTは、ミドルフュージョンとマルチモーダル、マルチステージの視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法である。
メタフレームワークに基づいて、複数のフレキシブルなプロンプト戦略を用いて、事前訓練されたモデルを適用し、ユニモーダルパターンの包括的探索を行う。
論文 参考訳(メタデータ) (2024-03-27T02:06:25Z) - SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face
Anti-Spoofing [19.142582966452935]
RGB、赤外線(IR)、深度によるマルチモーダルFASのためのViTにおける3つの重要な要素(入力、事前学習、微調整)について検討した。
マルチモーダルFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$2$A$2$E) を提案する。
論文 参考訳(メタデータ) (2023-02-11T17:02:34Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。