論文の概要: MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking
- arxiv url: http://arxiv.org/abs/2107.10433v1
- Date: Thu, 22 Jul 2021 03:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 13:01:18.401914
- Title: MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking
- Title(参考訳): MFGNet:RGB-T追跡のための動的モーダルアウェアフィルタ生成
- Authors: Xiao Wang, Xiujun Shu, Shiliang Zhang, Bo Jiang, Yaowei Wang, Yonghong
Tian, Feng Wu
- Abstract要約: 可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
- 参考スコア(独自算出の注目度): 72.65494220685525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many RGB-T trackers attempt to attain robust feature representation by
utilizing an adaptive weighting scheme (or attention mechanism). Different from
these works, we propose a new dynamic modality-aware filter generation module
(named MFGNet) to boost the message communication between visible and thermal
data by adaptively adjusting the convolutional kernels for various input images
in practical tracking. Given the image pairs as input, we first encode their
features with the backbone network. Then, we concatenate these feature maps and
generate dynamic modality-aware filters with two independent networks. The
visible and thermal filters will be used to conduct a dynamic convolutional
operation on their corresponding input feature maps respectively. Inspired by
residual connection, both the generated visible and thermal feature maps will
be summarized with input feature maps. The augmented feature maps will be fed
into the RoI align module to generate instance-level features for subsequent
classification. To address issues caused by heavy occlusion, fast motion, and
out-of-view, we propose to conduct a joint local and global search by
exploiting a new direction-aware target-driven attention mechanism. The spatial
and temporal recurrent neural network is used to capture the direction-aware
context for accurate global attention prediction. Extensive experiments on
three large-scale RGB-T tracking benchmark datasets validated the effectiveness
of our proposed algorithm. The project page of this paper is available at
https://sites.google.com/view/mfgrgbttrack/.
- Abstract(参考訳): 多くのRGB-Tトラッカーは適応重み付け方式(アテンション機構)を利用してロバストな特徴表現を試みている。
これらの作業とは違って,様々な入力画像に対する畳み込みカーネルを適応的に調整することにより,可視・熱データ間のメッセージ通信を促進できる動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
入力としてイメージペアを考えると、まずその機能をbackboneネットワークでエンコードします。
次に、これらの特徴マップを結合し、2つの独立したネットワークで動的モダリティ対応フィルタを生成する。
可視および熱フィルタは、それぞれ対応する入力特徴マップ上で動的畳み込み操作を行うために使用される。
残差接続に着想を得て、生成された可視性と熱的特徴マップの両方を入力特徴マップにまとめる。
拡張されたフィーチャーマップはRoIアライメントモジュールに入力され、その後の分類のためのインスタンスレベルの機能を生成する。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を利用して,共同で局所・グローバル検索を行うことを提案する。
空間的および時間的リカレントニューラルネットワークは、正確なグローバル注意予測のために方向認識コンテキストをキャプチャするために使用される。
3つの大規模RGB-T追跡ベンチマークデータセットの大規模な実験により,提案アルゴリズムの有効性が検証された。
この論文のプロジェクトページはhttps://sites.google.com/view/mfgrgbttrack/で閲覧できます。
関連論文リスト
- CasDyF-Net: Image Dehazing via Cascaded Dynamic Filters [0.0]
イメージデハジングは、大気の散乱と吸収効果を低減し、画像の明瞭さと視覚的品質を回復することを目的としている。
動的フィルタリングに着想を得て,マルチブランチネットワークを構築するためにカスケード動的フィルタを提案する。
RESIDE、Haze4K、O-Hazeのデータセットの実験は、我々の方法の有効性を検証する。
論文 参考訳(メタデータ) (2024-09-13T03:20:38Z) - Coordinate-Aware Thermal Infrared Tracking Via Natural Language Modeling [16.873697155916997]
NLMTrackは、座標対応の熱赤外追跡モデルである。
NLMTrackは、特徴抽出と特徴融合を統一するエンコーダを適用している。
実験により、NLMTrackは複数のベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-11T08:06:31Z) - Decomposed Guided Dynamic Filters for Efficient RGB-Guided Depth
Completion [46.04264366475848]
RGB誘導深度補正は、スパース深度測定と対応するRGB画像から深度マップを予測することを目的としている。
ガイド付き動的フィルタは、RGB特徴から空間的に可変な深度分割可能な畳み込みフィルタを生成し、深度特徴を導出する。
本稿では,ガイド付き動的フィルタを空間的に共有されたコンポーネントに分解し,各空間位置におけるコンテンツ適応型適応器を乗じて分解する。
論文 参考訳(メタデータ) (2023-09-05T08:37:58Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Dynamic Graph Convolutional Recurrent Network for Traffic Prediction:
Benchmark and Solution [18.309299822858243]
DGCRN(Dynamic Graph Contemporal Recurrent Network)と呼ばれる新しい交通予測フレームワークを提案する。
DGCRNでは、ハイパーネットワークはノード属性から動的特性を活用して抽出するように設計されている。
我々は、各時間ステップで動的グラフの細かい反復をモデル化する生成法を最初に採用した。
論文 参考訳(メタデータ) (2021-04-30T11:25:43Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。