論文の概要: Unsupervised Cross-Modal Distillation for Thermal Infrared Tracking
- arxiv url: http://arxiv.org/abs/2108.00187v1
- Date: Sat, 31 Jul 2021 09:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:20:21.274305
- Title: Unsupervised Cross-Modal Distillation for Thermal Infrared Tracking
- Title(参考訳): 熱赤外追跡のための非教師なしクロスモーダル蒸留
- Authors: Jingxian Sun, Lichao Zhang, Yufei Zha, Abel Gonzalez-Garcia, Peng
Zhang, Wei Huang, and Yanning Zhang
- Abstract要約: 畳み込みニューラルネットワークによって学習されるターゲット表現は、熱赤外(TIR)トラッキングにおいて重要な役割を果たす。
クロスモーダル蒸留(CMD)を用いたRGBモダリティからTIRモダリティの表現を抽出する。
我々のトラッカーは、それぞれ2.3%の成功、2.7%の精度、2.5%の正規化精度の絶対ゲインを達成して、ベースライントラッカーよりも優れています。
- 参考スコア(独自算出の注目度): 39.505507508776404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The target representation learned by convolutional neural networks plays an
important role in Thermal Infrared (TIR) tracking. Currently, most of the
top-performing TIR trackers are still employing representations learned by the
model trained on the RGB data. However, this representation does not take into
account the information in the TIR modality itself, limiting the performance of
TIR tracking. To solve this problem, we propose to distill representations of
the TIR modality from the RGB modality with Cross-Modal Distillation (CMD) on a
large amount of unlabeled paired RGB-TIR data. We take advantage of the
two-branch architecture of the baseline tracker, i.e. DiMP, for cross-modal
distillation working on two components of the tracker. Specifically, we use one
branch as a teacher module to distill the representation learned by the model
into the other branch. Benefiting from the powerful model in the RGB modality,
the cross-modal distillation can learn the TIR-specific representation for
promoting TIR tracking. The proposed approach can be incorporated into
different baseline trackers conveniently as a generic and independent
component. Furthermore, the semantic coherence of paired RGB and TIR images is
utilized as a supervised signal in the distillation loss for cross-modal
knowledge transfer. In practice, three different approaches are explored to
generate paired RGB-TIR patches with the same semantics for training in an
unsupervised way. It is easy to extend to an even larger scale of unlabeled
training data. Extensive experiments on the LSOTB-TIR dataset and PTB-TIR
dataset demonstrate that our proposed cross-modal distillation method
effectively learns TIR-specific target representations transferred from the RGB
modality. Our tracker outperforms the baseline tracker by achieving absolute
gains of 2.3% Success, 2.7% Precision, and 2.5% Normalized Precision
respectively.
- Abstract(参考訳): 畳み込みニューラルネットワークによって学習されるターゲット表現は、熱赤外(TIR)トラッキングにおいて重要な役割を果たす。
現在、トップパフォーマンスのTIRトラッカーのほとんどは、RGBデータに基づいてトレーニングされたモデルによって学習された表現を使用している。
しかし、この表現は、TIRモダリティ自体の情報を考慮しておらず、TIRトラッキングの性能を制限している。
そこで本研究では,無ラベルのRGB-TIRデータに対して,クロスモーダル蒸留(CMD)を用いたRGBモダリティからTIRモダリティの表現を抽出する手法を提案する。
ベースライントラッカの2ブランチアーキテクチャ、すなわちそのメリットを活用しています。
DiMPは、トラッカーの2つのコンポーネントで動作するクロスモーダル蒸留用である。
具体的には、あるブランチを教師モジュールとして使用し、モデルによって学習された表現を他のブランチに蒸留する。
RGBモダリティの強力なモデルにより、クロスモーダル蒸留は、TIRトラッキングを促進するためのTIR固有の表現を学ぶことができる。
提案手法は汎用的で独立したコンポーネントとして,様々なベースライントラッカに組み込むことができる。
さらに、対のRGB画像とTIR画像のセマンティックコヒーレンスを、クロスモーダルな知識伝達のための蒸留損失の教師付き信号として利用する。
実際には、教師なしの方法でトレーニングするために、同じ意味を持つペアRGB-TIRパッチを生成するために、3つの異なるアプローチが検討されている。
ラベルなしのトレーニングデータのさらに大きな規模に拡張するのは簡単です。
LSOTB-TIRデータセットとTB-TIRデータセットの大規模な実験により,提案手法はRGBモダリティからTIR固有のターゲット表現を効果的に学習することを示した。
我々のトラッカーは、それぞれ2.3%の成功、2.7%の精度、2.5%の正規化精度の絶対ゲインを達成して、ベースライントラッカーよりも優れている。
関連論文リスト
- Progressive Domain Adaptation for Thermal Infrared Object Tracking [9.888266596236578]
本稿では,TIR追跡のためのプログレッシブドメイン適応フレームワークを提案する。
このフレームワークは、大規模なTIRデータの時間と労働集約的なラベル付けを必要とせずに、大規模ラベル付きRGBデータセットをフル活用する。
5つのTIR追跡ベンチマーク実験の結果,提案手法は6%近い成功率を示し,その有効性を示した。
論文 参考訳(メタデータ) (2024-07-28T08:43:16Z) - Thermal-Infrared Remote Target Detection System for Maritime Rescue
based on Data Augmentation with 3D Synthetic Data [4.66313002591741]
本稿では,深層学習とデータ拡張を用いた海難救助のための熱赤外(TIR)遠隔目標検出システムを提案する。
データセットの不足に対処し、モデルの堅牢性を改善するために、3Dゲーム(ARMA3)からの合成データセットを収集する。
提案したセグメンテーションモデルは,最先端セグメンテーション手法の性能を上回る。
論文 参考訳(メタデータ) (2023-10-31T12:37:49Z) - Edge-guided Multi-domain RGB-to-TIR image Translation for Training
Vision Tasks with Challenging Labels [12.701191873813583]
注釈付き熱赤外(TIR)画像データセットの不足は、TIR画像ベースのディープラーニングネットワークを妨害し、RGBと同等の性能を持つ。
本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。
我々は、終点誤差を平均56.5%改善した深部TIR画像に基づく光フロー推定と物体検出の教師あり学習を可能にし、最高の物体検出mAPは23.9%とした。
論文 参考訳(メタデータ) (2023-01-30T06:44:38Z) - Self-Supervised RGB-T Tracking with Cross-Input Consistency [33.34113942544558]
本稿では,自己教師付きRGB-Tトラッキング手法を提案する。
我々のトラッカーは、ラベルなしのRGB-Tビデオペアを自己教師方式で訓練する。
我々の知る限りでは、トラッカーは初めての自己監督型RGB-Tトラッカーである。
論文 参考訳(メタデータ) (2023-01-26T18:11:16Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。