論文の概要: Unified Single-Stage Transformer Network for Efficient RGB-T Tracking
- arxiv url: http://arxiv.org/abs/2308.13764v1
- Date: Sat, 26 Aug 2023 05:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:16:58.496887
- Title: Unified Single-Stage Transformer Network for Efficient RGB-T Tracking
- Title(参考訳): 効率的なrgb-t追跡のための統一単段変圧器ネットワーク
- Authors: Jianqiang Xia, DianXi Shi, Ke Song, Linna Song, XiaoLei Wang,
Songchang Jin, Li Zhou, Yu Cheng, Lei Jin, Zheng Zhu, Jianan Li, Gang Wang,
Junliang Xing, Jian Zhao
- Abstract要約: 我々は、上記3つのステージを単一のViT(Vision Transformer)バックボーンに統合するシングルステージのRGB-Tトラッキングネットワーク、すなわちUSTrackを提案する。
この構造により、ネットワークは、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。
3つのRGB-T追跡ベンチマーク実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 47.88113335927079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing RGB-T tracking networks extract modality features in a separate
manner, which lacks interaction and mutual guidance between modalities. This
limits the network's ability to adapt to the diverse dual-modality appearances
of targets and the dynamic relationships between the modalities. Additionally,
the three-stage fusion tracking paradigm followed by these networks
significantly restricts the tracking speed. To overcome these problems, we
propose a unified single-stage Transformer RGB-T tracking network, namely
USTrack, which unifies the above three stages into a single ViT (Vision
Transformer) backbone with a dual embedding layer through self-attention
mechanism. With this structure, the network can extract fusion features of the
template and search region under the mutual interaction of modalities.
Simultaneously, relation modeling is performed between these features,
efficiently obtaining the search region fusion features with better
target-background discriminability for prediction. Furthermore, we introduce a
novel feature selection mechanism based on modality reliability to mitigate the
influence of invalid modalities for prediction, further improving the tracking
performance. Extensive experiments on three popular RGB-T tracking benchmarks
demonstrate that our method achieves new state-of-the-art performance while
maintaining the fastest inference speed 84.2FPS. In particular, MPR/MSR on the
short-term and long-term subsets of VTUAV dataset increased by
11.1$\%$/11.7$\%$ and 11.3$\%$/9.7$\%$.
- Abstract(参考訳): 既存のRGB-T追跡ネットワークの多くは、モダリティ間の相互作用や相互誘導に欠ける、異なる方法でモダリティ特徴を抽出している。
これにより、ターゲットの多様なデュアルモダリティの外観とモダリティ間の動的関係に適応するネットワークの能力が制限される。
さらに、これらのネットワークに続く3段階の核融合追跡パラダイムは、追跡速度を著しく制限する。
これらの問題を克服するために,上記3段階を自己着脱機構により二重埋め込み層を有する単一vit(vision transformer)バックボーンに統一する,統一型単段変圧器rgb-tトラッキングネットワーク,ustrackを提案する。
この構造により、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。
同時に、これらの特徴間の関係モデリングを行い、予測のためのより良い目標背景識別性を持つ探索領域融合特徴を効率的に取得する。
さらに,モダリティの信頼性に基づく新しい特徴選択機構を導入し,予測に対する不正なモダリティの影響を緩和し,トラッキング性能をさらに向上する。
3つのRGB-T追跡ベンチマークの大規模な実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示した。
特に、VTUAVデータセットの短期および長期サブセットにおけるMPR/MSRは、11.1$\%$/11.7$\%$と11.3$\%$/9.7$\%$に増加した。
関連論文リスト
- Cross Fusion RGB-T Tracking with Bi-directional Adapter [8.425592063392857]
CFBT(Cross Fusion RGB-T Tracking Architecture)を提案する。
CFBTの有効性は、新しく設計された3つの時間的情報融合モジュールに依存している。
3つのRGB-T追跡ベンチマーク実験により,本手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-30T02:45:56Z) - X Modality Assisting RGBT Object Tracking [36.614908357546035]
本稿では,融合パラダイムの影響を光を当てるために,新しいXモダリティ支援ネットワーク(X-Net)を提案する。
RGBと熱モダリティの相違から生じる特徴学習のハードルに対処するために,プラグアンドプレイピクセルレベル生成モジュール(PGM)を提案する。
また,混合特徴量対話変換器と空間次元特徴量変換戦略を組み込んだ特徴量対話モジュール (FIM) を提案する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文 参考訳(メタデータ) (2023-04-09T15:59:41Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Parameter Sharing Exploration and Hetero-Center based Triplet Loss for
Visible-Thermal Person Re-Identification [17.402673438396345]
本稿では,VT Re-ID(VT Re-ID)タスクについて述べる。
提案手法は,最先端の手法を大きなマージンで明らかに上回っている。
論文 参考訳(メタデータ) (2020-08-14T07:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。