論文の概要: From Two Stream to One Stream: Efficient RGB-T Tracking via Mutual Prompt Learning and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2403.16834v1
- Date: Mon, 25 Mar 2024 14:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:54:11.379806
- Title: From Two Stream to One Stream: Efficient RGB-T Tracking via Mutual Prompt Learning and Knowledge Distillation
- Title(参考訳): 2つのストリームから1つのストリームへ:相互プロンプト学習と知識蒸留による効率的なRGB-T追跡
- Authors: Yang Luo, Xiqing Guo, Hao Li,
- Abstract要約: 視覚的プロンプト学習にインスパイアされた我々は,相互学習に基づく新しい2ストリームRGB-T追跡アーキテクチャを設計した。
設計した教師モデルが最も精度が高く,教師モデルに匹敵する精度の学生モデルは,教師モデルよりも3倍以上高速な推論速度を実現した。
- 参考スコア(独自算出の注目度): 9.423279246172923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the complementary nature of visible light and thermal in-frared modalities, object tracking based on the fusion of visible light images and thermal images (referred to as RGB-T tracking) has received increasing attention from researchers in recent years. How to achieve more comprehensive fusion of information from the two modalities at a lower cost has been an issue that re-searchers have been exploring. Inspired by visual prompt learn-ing, we designed a novel two-stream RGB-T tracking architecture based on cross-modal mutual prompt learning, and used this model as a teacher to guide a one-stream student model for rapid learning through knowledge distillation techniques. Extensive experiments have shown that, compared to similar RGB-T track-ers, our designed teacher model achieved the highest precision rate, while the student model, with comparable precision rate to the teacher model, realized an inference speed more than three times faster than the teacher model.(Codes will be available if accepted.)
- Abstract(参考訳): 可視光と熱赤外変調の相補的な性質から、可視光画像と熱画像(RGB-T追跡と呼ばれる)の融合に基づく物体追跡は近年、研究者から注目されている。
より包括的な情報統合を低コストで実現する方法は、再調査者が探究してきた問題である。
視覚的プロンプト学習にインスパイアされた我々は,クロスモーダルな相互プロンプト学習に基づく新しい2ストリームRGB-T追跡アーキテクチャを設計し,このモデルを教師として利用し,知識蒸留技術による高速学習のための1ストリームの学生モデルを指導した。
また,RGB-Tトラッカーと比較して,教師モデルに匹敵する精度の学習者モデルは,教師モデルよりも3倍以上高速な推論速度を実現した。
(受理した場合はコードは利用可能。)
関連論文リスト
- 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Let All be Whitened: Multi-teacher Distillation for Efficient Visual
Retrieval [57.17075479691486]
市販の事前学習型検索モデルから軽量な学生モデルに知識を伝達し,効率的な視覚的検索を可能にする多教師蒸留フレームワークWhiten-MTDを提案する。
ソースコードはhttps://github.com/Maryeon/whiten_mtd.comで公開されています。
論文 参考訳(メタデータ) (2023-12-15T11:43:56Z) - RGB-T Tracking via Multi-Modal Mutual Prompt Learning [5.301062575633768]
RGB-T追跡として知られる、可視・熱的瞬間の融合に基づく物体追跡は、近年、研究者から注目度が高まっている。
両モード間の相互学習に基づく追跡アーキテクチャを提案する。
また,注意機構を2次元に組み込んだ軽量なプロンプトを設計し,計算コストの低減を図る。
論文 参考訳(メタデータ) (2023-08-31T01:13:01Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation [106.42167050921718]
本稿では,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。
複数の高精度なオブジェクトレベルの教師モデルから知識を抽出することで、異常を検出することを学ぶ。
提案モデルでは,これまで聞こえなかった1480 FPSの速度のため,速度と精度の最良のトレードオフを実現している。
論文 参考訳(メタデータ) (2022-11-28T17:50:19Z) - Students taught by multimodal teachers are superior action recognizers [41.821485757189656]
エゴセントリックなビデオ理解の焦点は、手動物体の相互作用をモデル化することである。
しかし、RGBフレームを入力として受信する標準モデル -- CNN、ビジョントランスフォーマーなど -- は、オブジェクト検出、光フロー、オーディオなどの追加のモダリティを利用することで、そのパフォーマンスがさらに向上する。
本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2022-10-09T19:37:17Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Unsupervised Cross-Modal Distillation for Thermal Infrared Tracking [39.505507508776404]
畳み込みニューラルネットワークによって学習されるターゲット表現は、熱赤外(TIR)トラッキングにおいて重要な役割を果たす。
クロスモーダル蒸留(CMD)を用いたRGBモダリティからTIRモダリティの表現を抽出する。
我々のトラッカーは、それぞれ2.3%の成功、2.7%の精度、2.5%の正規化精度の絶対ゲインを達成して、ベースライントラッカーよりも優れています。
論文 参考訳(メタデータ) (2021-07-31T09:19:59Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。