論文の概要: AFter: Attention-based Fusion Router for RGBT Tracking
- arxiv url: http://arxiv.org/abs/2405.02717v1
- Date: Sat, 4 May 2024 17:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:39:58.470442
- Title: AFter: Attention-based Fusion Router for RGBT Tracking
- Title(参考訳): AFter:RGBT追跡用アテンションベース核融合ルータ
- Authors: Andong Lu, Wanyu Wang, Chenglong Li, Jin Tang, Bin Luo,
- Abstract要約: 既存のRGBT追跡手法は、マルチモーダル機能を統合するために固定核融合構造を広く採用している。
AFterと呼ばれる新しいemphAttention-based emphFusion rouemphterを開発し、融合構造を最適化し、挑戦的なシナリオに適応する。
特に、階層的注意ネットワークに基づく融合構造空間を設計し、融合操作に対応する各注目ベース融合ユニットと、融合構造に対応するこれらの注目ユニットの組み合わせを設計する。
- 参考スコア(独自算出の注目度): 22.449878625622844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal feature fusion as a core investigative component of RGBT tracking emerges numerous fusion studies in recent years. However, existing RGBT tracking methods widely adopt fixed fusion structures to integrate multi-modal feature, which are hard to handle various challenges in dynamic scenarios. To address this problem, this work presents a novel \emph{A}ttention-based \emph{F}usion rou\emph{ter} called AFter, which optimizes the fusion structure to adapt to the dynamic challenging scenarios, for robust RGBT tracking. In particular, we design a fusion structure space based on the hierarchical attention network, each attention-based fusion unit corresponding to a fusion operation and a combination of these attention units corresponding to a fusion structure. Through optimizing the combination of attention-based fusion units, we can dynamically select the fusion structure to adapt to various challenging scenarios. Unlike complex search of different structures in neural architecture search algorithms, we develop a dynamic routing algorithm, which equips each attention-based fusion unit with a router, to predict the combination weights for efficient optimization of the fusion structure. Extensive experiments on five mainstream RGBT tracking datasets demonstrate the superior performance of the proposed AFter against state-of-the-art RGBT trackers. We release the code in https://github.com/Alexadlu/AFter.
- Abstract(参考訳): RGBT追跡のコアとなるマルチモーダル機能融合は近年,多くの融合研究が出現している。
しかし、既存のRGBT追跡手法は、動的シナリオにおける様々な課題を扱うのが困難であるマルチモーダル機能を統合するために、固定核融合構造を広く採用している。
この問題に対処するために、この研究は AFter と呼ばれる新しい \emph{A}ttention-based \emph{F}usion rou\emph{ter} を提示する。
特に、階層的注意ネットワークに基づく融合構造空間を設計し、融合操作に対応する各注目ベース融合ユニットと、融合構造に対応するこれらの注目ユニットの組み合わせを設計する。
注意に基づく融合ユニットの組み合わせを最適化することにより、様々な挑戦的なシナリオに対応するために、動的に融合構造を選択することができる。
ニューラルネットワーク探索アルゴリズムにおける異なる構造の複雑な探索とは異なり、各注意に基づく融合ユニットにルータを装備する動的ルーティングアルゴリズムを開発し、融合構造を効率的に最適化するための組み合わせ重み付けを予測する。
5つの主流RGBT追跡データセットに対する大規模な実験は、提案されたAFterの最先端RGBTトラッカーに対する優れた性能を示している。
コードをhttps://github.com/Alexadlu/AFter.comでリリースします。
関連論文リスト
- RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba [22.449878625622844]
本稿では,ロバストなRGBTトラッキングを実現するために,AINetという新しいマルチモーダル・インタラクション・ネットワークを提案する。
我々は,AINetが既存の最先端手法に対して先進的な性能を達成することを示す。
論文 参考訳(メタデータ) (2024-08-16T16:22:34Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided
Learning [37.067605349559]
本稿ではProFormerと呼ばれる新しいプログレッシブフュージョントランスを提案する。
単一のモダリティ情報をマルチモーダル表現に統合し、堅牢なRGBT追跡を行う。
ProFormerは、RGBT210、RGBT234、LasHeR、VTUAVデータセットに新しい最先端パフォーマンスを設定する。
論文 参考訳(メタデータ) (2023-03-26T16:55:58Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - High-Performance Transformer Tracking [74.07751002861802]
本稿では,シームズ様特徴抽出バックボーンをベースとしたTransformer Tracking(TransT)手法,設計した注意に基づく融合機構,分類と回帰ヘッドを提案する。
実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-25T09:33:29Z) - Exploring Fusion Strategies for Accurate RGBT Visual Object Tracking [1.015785232738621]
ビデオにおけるマルチモーダル物体追跡の問題に対処する。
可視光(RGB)および熱赤外(TIR)変調によって伝達される相補的情報を融合する様々な選択肢について検討する。
論文 参考訳(メタデータ) (2022-01-21T12:37:43Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。
本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。
実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文 参考訳(メタデータ) (2021-03-29T09:06:55Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。