論文の概要: Cross Fusion RGB-T Tracking with Bi-directional Adapter
- arxiv url: http://arxiv.org/abs/2408.16979v1
- Date: Fri, 30 Aug 2024 02:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:39:11.546115
- Title: Cross Fusion RGB-T Tracking with Bi-directional Adapter
- Title(参考訳): 双方向適応器を用いたクロスフュージョンRGB-T追跡
- Authors: Zhirong Zeng, Xiaotao Liu, Meng Sun, Hongyu Wang, Jing Liu,
- Abstract要約: CFBT(Cross Fusion RGB-T Tracking Architecture)を提案する。
CFBTの有効性は、新しく設計された3つの時間的情報融合モジュールに依存している。
3つのRGB-T追跡ベンチマーク実験により,本手法が新たな最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 8.425592063392857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many state-of-the-art RGB-T trackers have achieved remarkable results through modality fusion. However, these trackers often either overlook temporal information or fail to fully utilize it, resulting in an ineffective balance between multi-modal and temporal information. To address this issue, we propose a novel Cross Fusion RGB-T Tracking architecture (CFBT) that ensures the full participation of multiple modalities in tracking while dynamically fusing temporal information. The effectiveness of CFBT relies on three newly designed cross spatio-temporal information fusion modules: Cross Spatio-Temporal Augmentation Fusion (CSTAF), Cross Spatio-Temporal Complementarity Fusion (CSTCF), and Dual-Stream Spatio-Temporal Adapter (DSTA). CSTAF employs a cross-attention mechanism to enhance the feature representation of the template comprehensively. CSTCF utilizes complementary information between different branches to enhance target features and suppress background features. DSTA adopts the adapter concept to adaptively fuse complementary information from multiple branches within the transformer layer, using the RGB modality as a medium. These ingenious fusions of multiple perspectives introduce only less than 0.3\% of the total modal parameters, but they indeed enable an efficient balance between multi-modal and temporal information. Extensive experiments on three popular RGB-T tracking benchmarks demonstrate that our method achieves new state-of-the-art performance.
- Abstract(参考訳): 最先端のRGB-Tトラッカーの多くは、モダリティ融合によって顕著な成果を上げている。
しかし、これらのトラッカーはしばしば時間的情報を見落としているか、完全に利用できないかのいずれかであり、結果としてマルチモーダル情報と時間的情報の非効率なバランスが生じる。
この問題に対処するために,時間的情報を動的に融合しながら,トラッキングにおける複数モードの完全参加を保証する,CFBT(Cross Fusion RGB-T Tracking Architecture)を提案する。
CSTAF(Cross Spatio-Temporal Augmentation Fusion)、Cross Spatio-Temporal Complementarity Fusion(CSTCF)、Dual-Stream Spatio-Temporal Adapter(DSTA)である。
CSTAFはテンプレートの特徴表現を包括的に強化するクロスアテンション機構を採用している。
CSTCFは、異なるブランチ間の補完情報を使用して、ターゲット機能を強化し、バックグラウンド機能を抑制する。
DSTAはアダプタの概念を採用し、RGBモダリティを媒体として、トランスフォーマー層内の複数のブランチからの補完情報を適応的にフューズする。
これらの多重視点の創発的な融合は、全モーダルパラメータの0.3 %未満しか導入しないが、実際にはマルチモーダル情報と時間情報の効率的なバランスを可能にする。
3つのRGB-T追跡ベンチマークの大規模実験により,本手法が新たな最先端性能を実現することを示す。
関連論文リスト
- Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion [12.982885009492389]
クロスモーダルチャネルと空間的特徴を直接融合することにより、視覚変換器の性能を向上させる方法を示す。
CSTNetは3つの公開RGB-T追跡ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-06T05:58:49Z) - RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical
Flow and Scene Flow Estimation [43.358140897849616]
本稿では,RGB画像,ポイント雲,イベントを多段階多モード融合モデルであるRPEFlowに組み込む。
合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。
論文 参考訳(メタデータ) (2023-09-26T17:23:55Z) - Unified Single-Stage Transformer Network for Efficient RGB-T Tracking [47.88113335927079]
我々は、上記3つのステージを単一のViT(Vision Transformer)バックボーンに統合するシングルステージのRGB-Tトラッキングネットワーク、すなわちUSTrackを提案する。
この構造により、ネットワークは、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。
3つのRGB-T追跡ベンチマーク実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-08-26T05:09:57Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文 参考訳(メタデータ) (2023-04-09T15:59:41Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。