論文の概要: Exploring Fusion Strategies for Accurate RGBT Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2201.08673v1
- Date: Fri, 21 Jan 2022 12:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 17:30:13.974560
- Title: Exploring Fusion Strategies for Accurate RGBT Visual Object Tracking
- Title(参考訳): 正確なRGBTビジュアルオブジェクト追跡のための融合戦略の探索
- Authors: Zhangyong Tang (1), Tianyang Xu (1), Hui Li (1), Xiao-Jun Wu (1),
Xuefeng Zhu (1) and Josef Kittler (2) ((1) Jiangnan University, Wuxi, China,
(2) University of Surrey, UK)
- Abstract要約: ビデオにおけるマルチモーダル物体追跡の問題に対処する。
可視光(RGB)および熱赤外(TIR)変調によって伝達される相補的情報を融合する様々な選択肢について検討する。
- 参考スコア(独自算出の注目度): 1.015785232738621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of multi-modal object tracking in video and explore
various options of fusing the complementary information conveyed by the visible
(RGB) and thermal infrared (TIR) modalities including pixel-level,
feature-level and decision-level fusion. Specifically, different from the
existing methods, paradigm of image fusion task is heeded for fusion at pixel
level. Feature-level fusion is fulfilled by attention mechanism with channels
excited optionally. Besides, at decision level, a novel fusion strategy is put
forward since an effortless averaging configuration has shown the superiority.
The effectiveness of the proposed decision-level fusion strategy owes to a
number of innovative contributions, including a dynamic weighting of the RGB
and TIR contributions and a linear template update operation. A variant of
which produced the winning tracker at the Visual Object Tracking Challenge 2020
(VOT-RGBT2020). The concurrent exploration of innovative pixel- and
feature-level fusion strategies highlights the advantages of the proposed
decision-level fusion method. Extensive experimental results on three
challenging datasets, \textit{i.e.}, GTOT, VOT-RGBT2019, and VOT-RGBT2020,
demonstrate the effectiveness and robustness of the proposed method, compared
to the state-of-the-art approaches. Code will be shared at
\textcolor{blue}{\emph{https://github.com/Zhangyong-Tang/DFAT}.
- Abstract(参考訳): ビデオにおけるマルチモーダルオブジェクト追跡の問題に対処し,可視(rgb)と熱赤外線(tir)の相補的情報を用いて,画素レベル,特徴レベル,決定レベルの融合など様々な選択肢を検討する。
具体的には、既存の方法とは異なり、画像融合タスクのパラダイムはピクセルレベルでの融合のためにヒードされる。
特徴レベルの融合は、チャンネルを任意に励起するアテンション機構によって達成される。
また, 意思決定レベルでは, 無力平均化構成が優位性を示しているため, 新たな融合戦略が推進される。
提案した決定レベル融合戦略の有効性は、RGBとTIRの動的重み付けや線形テンプレート更新操作など、多くの革新的な貢献による。
その派生型はVisual Object Tracking Challenge 2020 (VOT-RGBT2020)で優勝したトラッカーを生産した。
革新的な画素レベルの融合戦略と特徴レベルの融合戦略の同時探索は,提案手法の利点を浮き彫りにしている。
GTOT, VOT-RGBT2019, VOT-RGBT2020の3つの挑戦的データセットに対する大規模な実験結果から, 提案手法の有効性とロバスト性を示した。
コードは \textcolor{blue}{\emph{https://github.com/Zhangyong-Tang/DFAT} で共有される。
関連論文リスト
- From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Breaking Free from Fusion Rule: A Fully Semantic-driven Infrared and
Visible Image Fusion [51.22863068854784]
赤外線と可視画像の融合はコンピュータビジョンの分野において重要な役割を果たす。
従来のアプローチでは、損失関数の様々な融合ルールを設計する努力が続けられていた。
セマンティックガイダンスを十分に活用する意味レベル融合ネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-22T13:59:59Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。