論文の概要: Breaking Modality Gap in RGBT Tracking: Coupled Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2410.11586v1
- Date: Tue, 15 Oct 2024 13:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:10.416728
- Title: Breaking Modality Gap in RGBT Tracking: Coupled Knowledge Distillation
- Title(参考訳): RGBT追跡におけるモダリティギャップの破り--複合知識蒸留
- Authors: Andong Lu, Jiacong Zhao, Chenglong Li, Yun Xiao, Bin Luo,
- Abstract要約: RGBと熱赤外(TIR)画像のモダリティギャップは重要な問題であるが、既存のRGBT追跡手法では見落とされがちである。
そこで本研究では,モダリティギャップを壊すために,異なるモダリティの共通スタイルを追求する,CKDと呼ばれる新しい知識蒸留フレームワークを提案する。
特に,2つの学生ネットワークを導入し,そのスタイル特性を一貫性のあるものにするために,スタイル蒸留損失を用いる。
- 参考スコア(独自算出の注目度): 21.161244379091833
- License:
- Abstract: Modality gap between RGB and thermal infrared (TIR) images is a crucial issue but often overlooked in existing RGBT tracking methods. It can be observed that modality gap mainly lies in the image style difference. In this work, we propose a novel Coupled Knowledge Distillation framework called CKD, which pursues common styles of different modalities to break modality gap, for high performance RGBT tracking. In particular, we introduce two student networks and employ the style distillation loss to make their style features consistent as much as possible. Through alleviating the style difference of two student networks, we can break modality gap of different modalities well. However, the distillation of style features might harm to the content representations of two modalities in student networks. To handle this issue, we take original RGB and TIR networks as the teachers, and distill their content knowledge into two student networks respectively by the style-content orthogonal feature decoupling scheme. We couple the above two distillation processes in an online optimization framework to form new feature representations of RGB and thermal modalities without modality gap. In addition, we design a masked modeling strategy and a multi-modal candidate token elimination strategy into CKD to improve tracking robustness and efficiency respectively. Extensive experiments on five standard RGBT tracking datasets validate the effectiveness of the proposed method against state-of-the-art methods while achieving the fastest tracking speed of 96.4 FPS. Code available at https://github.com/Multi-Modality-Tracking/CKD.
- Abstract(参考訳): RGBと熱赤外(TIR)画像のモダリティギャップは重要な問題であるが、既存のRGBT追跡手法では見落とされがちである。
モダリティギャップは主にイメージスタイルの違いにあることが観察できる。
そこで本研究では,ハイパフォーマンスなRGBTトラッキングを実現するために,モダリティの共通スタイルを追求する,CKDと呼ばれる新しい結合知識蒸留フレームワークを提案する。
特に,2つの学生ネットワークを導入し,そのスタイル特性を可能な限り一貫したものにするために,スタイル蒸留損失を用いる。
2つの学生ネットワークのスタイルの違いを緩和することにより、異なるモダリティのモダリティギャップをうまく壊すことができる。
しかし, スタイル特徴の蒸留は, 学生ネットワークにおける2つのモダリティの内容表現に悪影響を及ぼす可能性がある。
この問題に対処するため,RGB と TIR のオリジナルネットワークを教師として扱い,そのコンテンツ知識を2つの学生ネットワークにそれぞれ,スタイル・コンテントの直交特徴分離方式を用いて蒸留する。
以上の2つの蒸留プロセスをオンライン最適化フレームワークで組み合わせ、RGBの新たな特徴表現と熱モダリティをモダリティギャップなく形成する。
さらに,ロバスト性および効率性を向上させるために,マスク付きモデリング戦略とマルチモーダル候補トークン除去戦略をCKDに設計する。
5つの標準RGBT追跡データセットの大規模な実験は、96.4 FPSの高速追跡速度を達成しつつ、提案手法の有効性を検証する。
コードはhttps://github.com/Multi-Modality-Tracking/CKDで公開されている。
関連論文リスト
- Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency
Detection [10.589062261564631]
RGB-Tサリエンシ検出は、暗黒環境のような困難な場面で顕著な物体を識別する重要なコンピュータビジョンタスクとして登場した。
既存の手法では、クロスモーダルの特徴を無視し、RGBと熱的特徴を融合させるネットワーク構造のみに依存している。
まず、教師付きおよび自己教師付き損失関数を含むマルチモーダルハイブリッド損失(MMHL)を提案する。
論文 参考訳(メタデータ) (2023-09-13T20:47:29Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z) - Multi-interactive Dual-decoder for RGB-thermal Salient Object Detection [37.79290349045164]
RGB-thermal Salient Object Detection (SOD)は、可視画像とそれに対応する熱赤外画像の共通する顕著な領域を分割することを目的としている。
既存の手法では、異なるモダリティの相補性のポテンシャルや、画像内容の多種類の手がかりを十分に探求し、活用することができない。
高精度なRGBT SODのためのマルチタイプインタラクションをマイニングし,モデル化するためのマルチインタラクティブなデュアルデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-05T16:21:17Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。