論文の概要: RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba
- arxiv url: http://arxiv.org/abs/2408.08827v1
- Date: Fri, 16 Aug 2024 16:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 14:53:53.774594
- Title: RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba
- Title(参考訳): プログレッシブ・フュージョン・マンバを用いた全層多モード相互作用によるRGBT追跡
- Authors: Andong Lu, Wanyu Wang, Chenglong Li, Jin Tang, Bin Luo,
- Abstract要約: 本稿では,ロバストなRGBTトラッキングを実現するために,AINetという新しいマルチモーダル・インタラクション・ネットワークを提案する。
我々は,AINetが既存の最先端手法に対して先進的な性能を達成することを示す。
- 参考スコア(独自算出の注目度): 22.449878625622844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing RGBT tracking methods often design various interaction models to perform cross-modal fusion of each layer, but can not execute the feature interactions among all layers, which plays a critical role in robust multimodal representation, due to large computational burden. To address this issue, this paper presents a novel All-layer multimodal Interaction Network, named AINet, which performs efficient and effective feature interactions of all modalities and layers in a progressive fusion Mamba, for robust RGBT tracking. Even though modality features in different layers are known to contain different cues, it is always challenging to build multimodal interactions in each layer due to struggling in balancing interaction capabilities and efficiency. Meanwhile, considering that the feature discrepancy between RGB and thermal modalities reflects their complementary information to some extent, we design a Difference-based Fusion Mamba (DFM) to achieve enhanced fusion of different modalities with linear complexity. When interacting with features from all layers, a huge number of token sequences (3840 tokens in this work) are involved and the computational burden is thus large. To handle this problem, we design an Order-dynamic Fusion Mamba (OFM) to execute efficient and effective feature interactions of all layers by dynamically adjusting the scan order of different layers in Mamba. Extensive experiments on four public RGBT tracking datasets show that AINet achieves leading performance against existing state-of-the-art methods.
- Abstract(参考訳): 既存のRGBT追跡手法は、各層を相互に融合させる様々な相互作用モデルを設計することが多いが、計算負荷が大きいため、頑健なマルチモーダル表現において重要な役割を果たす全ての層間の特徴的相互作用は実行できない。
そこで本論文では, プログレッシブ・フュージョン・マンバにおける全モダリティとレイヤ間の効率的な機能相互作用を, 堅牢なRGBTトラッキングのために実現した, AINet という新しいマルチモーダル・インタラクション・ネットワークを提案する。
異なるレイヤのモダリティ機能は異なるキューを含むことが知られているが、インタラクション機能と効率のバランスをとるのに苦労するため、各レイヤでマルチモーダルなインタラクションを構築することは常に困難である。
一方,RGBと熱モダリティ間の特徴差が相補的な情報をある程度反映していることを考えると,差分に基づくフュージョン・マンバ (DFM) を設計して,異なるモダリティを線形複雑に融合させる。
全ての層の特徴と相互作用する場合、膨大な数のトークンシーケンス(この作業では3840のトークン)が関与し、計算負荷が大きい。
そこで本研究では,各層の走査順序を動的に調整することにより,すべての層間の効率的な効率的な特徴相互作用を実現するために,オーダー・ダイナミック・フュージョン・マンバ (OFM) を設計する。
4つの公開RGBT追跡データセットに対する大規模な実験は、AINetが既存の最先端の手法に対して主要なパフォーマンスを達成することを示している。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Multi-layer Learnable Attention Mask for Multimodal Tasks [2.378535917357144]
ラーナブル・アテンション・マスク(LAM)は、グローバルなアテンションマップの規制と重要なトークンの優先順位付けのために戦略的に設計された。
LAMはBERTのようなトランスフォーマーネットワークでトークン間の関連を受信する。
MADv2、QVHighlights、ImageNet 1K、MSRVTTなど、さまざまなデータセットに対する総合的な実験的検証。
論文 参考訳(メタデータ) (2024-06-04T20:28:02Z) - SurvMamba: State Space Model with Multi-grained Multi-modal Interaction for Survival Prediction [8.452410804749512]
生存予測のための多層多モード相互作用(SurvMamba)を用いた状態空間モデルを提案する。
SurvMamba は階層的相互作用 Mamba (HIM) モジュールで実装されている。
インターフェクション・フュージョン・マンバ (IFM) モジュールは、モーダル間インタラクティブ・フュージョンのカスケードに使われ、生存予測のためのより包括的な特徴をもたらす。
論文 参考訳(メタデータ) (2024-04-11T15:58:12Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Memory based fusion for multi-modal deep learning [39.29589204750581]
メモリベースのAttentive Fusionレイヤは、現在の機能と長期依存の両方をデータに組み込むことで、モードをフューズする。
データに現在の特徴と長期的依存関係の両方を組み込むことで、モデムを融合するメモリベースのアテンティブフュージョン層を新たに提案する。
論文 参考訳(メタデータ) (2020-07-16T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。