論文の概要: Bi-directional Adapter for Multi-modal Tracking
- arxiv url: http://arxiv.org/abs/2312.10611v1
- Date: Sun, 17 Dec 2023 05:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:31:13.416042
- Title: Bi-directional Adapter for Multi-modal Tracking
- Title(参考訳): マルチモーダルトラッキング用双方向アダプタ
- Authors: Bing Cao, Junliang Guo, Pengfei Zhu, Qinghua Hu
- Abstract要約: 汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
- 参考スコア(独自算出の注目度): 67.01179868400229
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Due to the rapid development of computer vision, single-modal (RGB) object
tracking has made significant progress in recent years. Considering the
limitation of single imaging sensor, multi-modal images (RGB, Infrared, etc.)
are introduced to compensate for this deficiency for all-weather object
tracking in complex environments. However, as acquiring sufficient multi-modal
tracking data is hard while the dominant modality changes with the open
environment, most existing techniques fail to extract multi-modal complementary
information dynamically, yielding unsatisfactory tracking performance. To
handle this problem, we propose a novel multi-modal visual prompt tracking
model based on a universal bi-directional adapter, cross-prompting multiple
modalities mutually. Our model consists of a universal bi-directional adapter
and multiple modality-specific transformer encoder branches with sharing
parameters. The encoders extract features of each modality separately by using
a frozen pre-trained foundation model. We develop a simple but effective light
feature adapter to transfer modality-specific information from one modality to
another, performing visual feature prompt fusion in an adaptive manner. With
adding fewer (0.32M) trainable parameters, our model achieves superior tracking
performance in comparison with both the full fine-tuning methods and the prompt
learning-based methods. Our code is available:
https://github.com/SparkTempest/BAT.
- Abstract(参考訳): コンピュータビジョンの急速な発展により、近年、シングルモーダル(RGB)オブジェクトトラッキングは大きな進歩を遂げている。
単一撮像センサの限界を考慮したマルチモーダル画像(rgb、赤外線等)を導入し、複雑な環境における全天候物体追跡におけるこの不足を補う。
しかし,マルチモーダル追跡データを取得することは,オープン環境において支配的なモダリティが変化する一方で難しいため,既存の手法の多くは,マルチモーダル補完情報を動的に抽出することができず,不満足な追跡性能が得られる。
この問題に対処するために,汎用双方向アダプタに基づくマルチモーダルビジュアルプロンプトトラッキングモデルを提案する。
本モデルは,汎用双方向アダプタと共有パラメータを持つマルチモダリティ固有トランスエンコーダブランチから構成される。
エンコーダは凍結事前学習基礎モデルを用いて各モードの特徴を別々に抽出する。
我々は,1つのモダリティから別のモダリティへモダリティ特有の情報を転送し,適応的に視覚特徴プロンプト融合を行う,単純かつ効果的な光機能アダプタを開発した。
トレーニング可能なパラメータを0.32Mに減らすことで,完全微調整法と素早い学習法の両方と比較して優れた追跡性能が得られる。
コードはhttps://github.com/sparktempest/bat.com/。
関連論文リスト
- FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。