論文の概要: Transformer RGBT Tracking with Spatio-Temporal Multimodal Tokens
- arxiv url: http://arxiv.org/abs/2401.01674v1
- Date: Wed, 3 Jan 2024 11:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 14:24:04.671172
- Title: Transformer RGBT Tracking with Spatio-Temporal Multimodal Tokens
- Title(参考訳): 時空間マルチモーダルトークンを用いた変圧器rgbt追跡
- Authors: Dengdi Sun, Yajie Pan, Andong Lu, Chenglong Li, Bin Luo
- Abstract要約: 静的テンプレートからのマルチモーダルトークンと,ターゲットの外観変化を処理するマルチモーダル検索トランスフォーマーを組み合わせた,新しいTransformer-Tトラッキング手法を提案する。
我々のモジュールはトランスネットワークに挿入され,共同特徴抽出,検索テンプレートマッチング,時間的相互作用を継承する。
3つのRGBTベンチマークデータセットの実験により、提案手法は、他の最先端追跡アルゴリズムと比較して、競合性能を維持していることが示された。
- 参考スコア(独自算出の注目度): 13.608089918718797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many RGBT tracking researches primarily focus on modal fusion design, while
overlooking the effective handling of target appearance changes. While some
approaches have introduced historical frames or fuse and replace initial
templates to incorporate temporal information, they have the risk of disrupting
the original target appearance and accumulating errors over time. To alleviate
these limitations, we propose a novel Transformer RGBT tracking approach, which
mixes spatio-temporal multimodal tokens from the static multimodal templates
and multimodal search regions in Transformer to handle target appearance
changes, for robust RGBT tracking. We introduce independent dynamic template
tokens to interact with the search region, embedding temporal information to
address appearance changes, while also retaining the involvement of the initial
static template tokens in the joint feature extraction process to ensure the
preservation of the original reliable target appearance information that
prevent deviations from the target appearance caused by traditional temporal
updates. We also use attention mechanisms to enhance the target features of
multimodal template tokens by incorporating supplementary modal cues, and make
the multimodal search region tokens interact with multimodal dynamic template
tokens via attention mechanisms, which facilitates the conveyance of
multimodal-enhanced target change information. Our module is inserted into the
transformer backbone network and inherits joint feature extraction,
search-template matching, and cross-modal interaction. Extensive experiments on
three RGBT benchmark datasets show that the proposed approach maintains
competitive performance compared to other state-of-the-art tracking algorithms
while running at 39.1 FPS.
- Abstract(参考訳): 多くのRGBT追跡研究は、ターゲットの外観変化を効果的に処理しながら、主にモーダル融合設計に焦点を当てている。
いくつかのアプローチでは、過去のフレームやヒューズを導入し、時間的情報を組み込むために初期テンプレートを置き換えるが、元のターゲットの外観を乱し、時間とともにエラーを蓄積するリスクがある。
これらの制約を緩和するために,静的マルチモーダルテンプレートとトランスフォーマティブのマルチモーダル検索領域から時空間的マルチモーダルトークンを混合し,ターゲットの外観変化を処理し,ロバストなrgbtトラッキングを実現する,新しいトランスフォーマティブrgbt追跡手法を提案する。
検索領域と対話する独立動的テンプレートトークンを導入し、外観変化に時間的情報を埋め込むとともに、初期静的テンプレートトークンの結合特徴抽出プロセスへの関与を維持し、従来の時間的更新によるターゲット外観のずれを防止するために、元の信頼性の高いターゲット外観情報の保存を確保する。
また,マルチモーダルなテンプレートトークンを付加することで,マルチモーダルなテンプレートトークンのターゲット特性を高めるためにアテンション機構を用い,マルチモーダルなテンプレートトークンとマルチモーダルな動的テンプレートトークンを相互作用させることにより,マルチモーダルなターゲット変更情報の伝達を容易にする。
本モジュールはトランスフォーマーバックボーンネットワークに挿入され,ジョイント特徴抽出,検索・テンプレートマッチング,クロスモーダルインタラクションを継承する。
3つのRGBTベンチマークデータセットの大規模な実験により、提案手法は39.1 FPSで実行しながら、他の最先端追跡アルゴリズムと比較して競争性能を維持することが示された。
関連論文リスト
- Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Temporal Adaptive RGBT Tracking with Modality Prompt [10.431364270734331]
RGBTトラッキングは、ロボティクス、処理、監視、自動運転など様々な分野で広く使われている。
既存のRGBTトラッカーは、テンプレートと検索領域の間の空間情報を十分に探索し、外観マッチング結果に基づいてターゲットを特定する。
これらのRGBTトラッカーは、時間的情報を無視したり、オンラインサンプリングやトレーニングを通じて利用したり、時間的情報を非常に限定的に利用している。
論文 参考訳(メタデータ) (2024-01-02T15:20:50Z) - Unsupervised Multi-modal Feature Alignment for Time Series
Representation Learning [20.655943795843037]
異なるモダリティから符号化された時系列表現の整合と結合に焦点を当てた革新的なアプローチを導入する。
複数のモーダルから特徴を融合させる従来の手法とは対照的に,提案手法は単一時系列エンコーダを保持することにより,ニューラルアーキテクチャを単純化する。
我々のアプローチは、様々な下流タスクにまたがる既存の最先端のURLメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-12-09T22:31:20Z) - Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。
特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。
このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文 参考訳(メタデータ) (2023-11-20T17:35:44Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。