論文の概要: MTNet: Learning modality-aware representation with transformer for RGBT tracking
- arxiv url: http://arxiv.org/abs/2508.17280v1
- Date: Sun, 24 Aug 2025 10:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.442743
- Title: MTNet: Learning modality-aware representation with transformer for RGBT tracking
- Title(参考訳): MTNet:RGBT追跡のための変圧器を用いたモダリティ認識表現の学習
- Authors: Ruichao Hou, Boyue Xu, Tongwei Ren, Gangshan Wu,
- Abstract要約: MTNetと呼ばれるトランスフォーマーに基づくモダリティ対応トラッカーを提案する。
その後、グローバルな依存関係をキャプチャしてインスタンス表現を強化するために、Transformer fusion Networkが適用される。
提案手法は,3つのRGBTベンチマークにおいて,最先端の競合相手と比較して良好な結果が得られる。
- 参考スコア(独自算出の注目度): 35.96855931247585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to learn robust multi-modality representation has played a critical role in the development of RGBT tracking. However, the regular fusion paradigm and the invariable tracking template remain restrictive to the feature interaction. In this paper, we propose a modality-aware tracker based on transformer, termed MTNet. Specifically, a modality-aware network is presented to explore modality-specific cues, which contains both channel aggregation and distribution module(CADM) and spatial similarity perception module (SSPM). A transformer fusion network is then applied to capture global dependencies to reinforce instance representations. To estimate the precise location and tackle the challenges, such as scale variation and deformation, we design a trident prediction head and a dynamic update strategy which jointly maintain a reliable template for facilitating inter-frame communication. Extensive experiments validate that the proposed method achieves satisfactory results compared with the state-of-the-art competitors on three RGBT benchmarks while reaching real-time speed.
- Abstract(参考訳): 堅牢なマルチモダリティ表現を学習する能力は、RGBTトラッキングの開発において重要な役割を担っている。
しかし、通常の融合パラダイムと不変追跡テンプレートは、機能相互作用に制限されるままである。
本稿では,MTNetと呼ばれるトランスフォーマーに基づくモダリティ対応トラッカーを提案する。
具体的には、チャネルアグリゲーションと分布モジュール(CADM)と空間類似性知覚モジュール(SSPM)の両方を含むモダリティ固有のキューを探索するために、モダリティ対応ネットワークを提示する。
その後、グローバルな依存関係をキャプチャしてインスタンス表現を強化するために、Transformer fusion Networkが適用される。
スケールの変動や変形など,正確な位置を推定し,課題に対処するために,フレーム間通信を容易にするための信頼性の高いテンプレートを共同で維持するトリデント予測ヘッドと動的更新戦略を設計する。
実験により,提案手法は3つのRGBTベンチマークにおける最先端の競合相手と比較して,リアルタイムに高速に動作し,良好な結果が得られることを確認した。
関連論文リスト
- Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - X Modality Assisting RGBT Object Tracking [1.730147049648545]
X Modality Assisting Network (X-Net)を導入し、視覚オブジェクト追跡を3つの異なるレベルに分離することで、融合パラダイムの影響を探る。
X-Netは、正確なレートと成功率の平均で0.47%/1.2%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - Modality-missing RGBT Tracking: Invertible Prompt Learning and High-quality Benchmarks [21.139161163767884]
モーダル情報は、熱センサーの自己校正やデータ伝送誤差などの要因によって見逃される可能性がある。
本稿では、コンテンツ保存プロンプトをよく訓練された追跡モデルに統合する、新しい非可逆的プロンプト学習手法を提案する。
提案手法は,最先端手法と比較して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-12-25T11:39:00Z) - Unified Single-Stage Transformer Network for Efficient RGB-T Tracking [47.88113335927079]
我々は、上記3つのステージを単一のViT(Vision Transformer)バックボーンに統合するシングルステージのRGB-Tトラッキングネットワーク、すなわちUSTrackを提案する。
この構造により、ネットワークは、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。
3つのRGB-T追跡ベンチマーク実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-08-26T05:09:57Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - High-Performance Transformer Tracking [74.07751002861802]
本稿では,シームズ様特徴抽出バックボーンをベースとしたTransformer Tracking(TransT)手法,設計した注意に基づく融合機構,分類と回帰ヘッドを提案する。
実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-25T09:33:29Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。