論文の概要: RGB-T Tracking via Multi-Modal Mutual Prompt Learning
- arxiv url: http://arxiv.org/abs/2308.16386v1
- Date: Thu, 31 Aug 2023 01:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 17:57:06.289305
- Title: RGB-T Tracking via Multi-Modal Mutual Prompt Learning
- Title(参考訳): マルチモーダル相互プロンプト学習によるRGB-T追跡
- Authors: Yang Luo, Xiqing Guo, Hui Feng, Lei Ao
- Abstract要約: RGB-T追跡として知られる、可視・熱的瞬間の融合に基づく物体追跡は、近年、研究者から注目度が高まっている。
両モード間の相互学習に基づく追跡アーキテクチャを提案する。
また,注意機構を2次元に組み込んだ軽量なプロンプトを設計し,計算コストの低減を図る。
- 参考スコア(独自算出の注目度): 5.301062575633768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object tracking based on the fusion of visible and thermal im-ages, known as
RGB-T tracking, has gained increasing atten-tion from researchers in recent
years. How to achieve a more comprehensive fusion of information from the two
modalities with fewer computational costs has been a problem that re-searchers
have been exploring. Recently, with the rise of prompt learning in computer
vision, we can better transfer knowledge from visual large models to downstream
tasks. Considering the strong complementarity between visible and thermal
modalities, we propose a tracking architecture based on mutual prompt learning
between the two modalities. We also design a lightweight prompter that
incorporates attention mechanisms in two dimensions to transfer information
from one modality to the other with lower computational costs, embedding it
into each layer of the backbone. Extensive ex-periments have demonstrated that
our proposed tracking ar-chitecture is effective and efficient, achieving
state-of-the-art performance while maintaining high running speeds.
- Abstract(参考訳): RGB-T追跡として知られる、可視・熱的瞬間の融合に基づく物体追跡は、近年、研究者から注目度が高まっている。
計算コストの少ない2つのモダリティからのより包括的な情報の融合を実現するには、re-searchersが検討している問題である。
近年,コンピュータビジョンにおけるプロンプト学習の台頭に伴い,視覚大モデルから下流タスクへの知識の伝達が容易になった。
可視性と熱的モダリティの強い相補性を考慮して,両モダリティ間の相互即学習に基づく追跡アーキテクチャを提案する。
また,2次元にアテンション機構を組み込んだ軽量なプロンプトを設計し,一方のモダリティから他方のモダリティへの情報をより少ない計算コストで伝達し,背骨の各層に埋め込む。
提案手法は,高走行速度を維持しつつ,最先端性能を実現し,効率的かつ効率的であることを示す。
関連論文リスト
- From Two-Stream to One-Stream: Efficient RGB-T Tracking via Mutual Prompt Learning and Knowledge Distillation [9.423279246172923]
視覚的プロンプト学習にインスパイアされた我々は,相互学習に基づく新しい2ストリームRGB-T追跡アーキテクチャを設計した。
設計した教師モデルが最も精度が高く,教師モデルに匹敵する精度の学生モデルは,教師モデルよりも3倍以上高速な推論速度を実現した。
論文 参考訳(メタデータ) (2024-03-25T14:57:29Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition [24.02488085447691]
そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T19:00:23Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Multi-View Fusion Transformer for Sensor-Based Human Activity
Recognition [15.845205542668472]
センサに基づく人間活動認識(HAR)は、加速度計やジャイロスコープなどのマルチモーダルセンサから収集されたリッチな時系列データに基づいて、人間の活動を認識することを目的としている。
近年の深層学習手法は、時間的視点などのデータの一視点に焦点を合わせており、浅層学習法は、例えば統計的視点のような手工芸的特徴を利用する傾向にある。
本稿では,新しいアテンション機構とともに,MVFT(Multi-view fusion transformer)という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:15:22Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Robust Correlation Tracking via Multi-channel Fused Features and
Reliable Response Map [10.079856376445598]
本稿では,2つのアイデアに基づく頑健な相関追跡アルゴリズム(RCT)を提案する。
まず,追跡対象の勾配や色情報をより自然に記述するために,特徴を融合する手法を提案する。
第二に、応答マップにおけるノイズを著しく低減し、従ってモデルドリフトの問題を緩和する新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-11-25T07:15:03Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。