論文の概要: RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss
- arxiv url: http://arxiv.org/abs/2011.07189v3
- Date: Fri, 4 Jun 2021 06:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 13:38:19.624600
- Title: RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss
- Title(参考訳): 階層的分散損失を有するマルチアダプタネットワークによるRGBT追跡
- Authors: Andong Lu, Chenglong Li, Yuqing Yan, Jin Tang, and Bin Luo
- Abstract要約: 本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
- 参考スコア(独自算出の注目度): 37.99375824040946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RGBT tracking has attracted increasing attention since RGB and thermal
infrared data have strong complementary advantages, which could make trackers
all-day and all-weather work. However, how to effectively represent RGBT data
for visual tracking remains unstudied well. Existing works usually focus on
extracting modality-shared or modality-specific information, but the potentials
of these two cues are not well explored and exploited in RGBT tracking. In this
paper, we propose a novel multi-adapter network to jointly perform
modality-shared, modality-specific and instance-aware target representation
learning for RGBT tracking. To this end, we design three kinds of adapters
within an end-to-end deep learning framework. In specific, we use the modified
VGG-M as the generality adapter to extract the modality-shared target
representations.To extract the modality-specific features while reducing the
computational complexity, we design a modality adapter, which adds a small
block to the generality adapter in each layer and each modality in a parallel
manner. Such a design could learn multilevel modality-specific representations
with a modest number of parameters as the vast majority of parameters are
shared with the generality adapter. We also design instance adapter to capture
the appearance properties and temporal variations of a certain target.
Moreover, to enhance the shared and specific features, we employ the loss of
multiple kernel maximum mean discrepancy to measure the distribution divergence
of different modal features and integrate it into each layer for more robust
representation learning. Extensive experiments on two RGBT tracking benchmark
datasets demonstrate the outstanding performance of the proposed tracker
against the state-of-the-art methods.
- Abstract(参考訳): RGBT追跡は、RGBと熱赤外データに強い相補的な利点があり、トラッカーが一日中全天候で動く可能性があることから注目されている。
しかし、視覚追跡のためにRGBTデータを効果的に表現する方法はまだよく研究されていない。
既存の研究は通常、モダリティ共有情報やモダリティ固有情報の抽出に重点を置いているが、これらの2つの手がかりのポテンシャルは、RGBT追跡において十分に調査され、活用されていない。
本稿では,RGBT追跡のためのモダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うマルチアダプタネットワークを提案する。
この目的のために,エンドツーエンドのディープラーニングフレームワーク内に3種類のアダプタを設計する。
具体的には、修正vgg-mを汎用アダプタとして、モダリティ共有対象表現を抽出する。計算複雑性を低減しつつモダリティ特有の特徴を抽出するために、モダリティアダプタを設計し、各層と各モダリティで汎用アダプタに小さなブロックを追加する。
このような設計は、パラメータの大多数が一般性アダプタと共有されるため、控えめな数のパラメータを持つマルチレベルモダリティ固有表現を学習することができる。
また、特定のターゲットの外観特性と時間変化をキャプチャするインスタンスアダプタも設計します。
さらに,共有および特定機能を強化するために,複数のカーネルの最大平均差の損失を用いて,異なるモーダル特徴の分布のばらつきを計測し,より堅牢な表現学習のために各層に統合する。
2つのRGBT追跡ベンチマークデータセットに対する大規模な実験は、提案したトラッカーの最先端手法に対する優れた性能を示す。
関連論文リスト
- Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文 参考訳(メタデータ) (2023-04-09T15:59:41Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Challenge-Aware RGBT Tracking [32.88141817679821]
本稿では,モダリティに偏った課題と,モダリティに特有の課題に対処する,新たな課題認識ニューラルネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端手法に対して高い性能を保ちながら,リアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-07-26T15:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。