Fugu-MT 論文翻訳(概要): Enhancing Thermal Infrared Tracking with Natural Language Modeling and Coordinate Sequence Generation

論文の概要: Enhancing Thermal Infrared Tracking with Natural Language Modeling and Coordinate Sequence Generation

arxiv url: http://arxiv.org/abs/2407.08265v1
Date: Thu, 11 Jul 2024 08:06:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 18:29:17.024763
Title: Enhancing Thermal Infrared Tracking with Natural Language Modeling and Coordinate Sequence Generation
Title（参考訳）: 自然言語モデリングとコーディネートシーケンス生成による熱赤外トラッキングの強化
Authors: Miao Yan, Ping Zhang, Haofei Zhang, Ruqian Hao, Juanxiu Liu, Xiaoyang Wang, Lin Liu,
Abstract要約: 本研究では,座標情報と時間情報の利用性を高めるNLMTrackという新しいモデルを提案する。実験により、NLMTrackは複数のベンチマークで最先端のパフォーマンスを達成することが示された。
参考スコア（独自算出の注目度）: 16.873697155916997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Thermal infrared tracking is an essential topic in computer vision tasks because of its advantage of all-weather imaging. However, most conventional methods utilize only hand-crafted features, while deep learning-based correlation filtering methods are limited by simple correlation operations. Transformer-based methods ignore temporal and coordinate information, which is critical for TIR tracking that lacks texture and color information. In this paper, to address these issues, we apply natural language modeling to TIR tracking and propose a novel model called NLMTrack, which enhances the utilization of coordinate and temporal information. NLMTrack applies an encoder that unifies feature extraction and feature fusion, which simplifies the TIR tracking pipeline. To address the challenge of low detail and low contrast in TIR images, on the one hand, we design a multi-level progressive fusion module that enhances the semantic representation and incorporates multi-scale features. On the other hand, the decoder combines the TIR features and the coordinate sequence features using a causal transformer to generate the target sequence step by step. Moreover, we explore an adaptive loss aimed at elevating tracking accuracy and a simple template update strategy to accommodate the target's appearance variations. Experiments show that NLMTrack achieves state-of-the-art performance on multiple benchmarks. The Code is publicly available at \url{https://github.com/ELOESZHANG/NLMTrack}.
Abstract（参考訳）: 熱赤外トラッキングは、全天候イメージングの利点から、コンピュータビジョンタスクにおいて重要なトピックである。しかし,従来の手法では手作りの特徴のみを生かし,深層学習に基づく相関フィルタリングは単純な相関操作によって制限される。トランスフォーマーベースの手法は、テクスチャや色情報に欠けるTIRトラッキングにとって重要な時間情報や座標情報を無視する。本稿では、これらの問題に対処するために、自然言語モデリングをTIR追跡に適用し、座標情報と時間情報の利用を向上させるNLMTrackと呼ばれる新しいモデルを提案する。 NLMTrackは、機能抽出と機能融合を統一するエンコーダを適用し、TIR追跡パイプラインを単純化する。 TIR画像の低精細化と低コントラスト化の課題に対処するため,多段階のプログレッシブ・フュージョン・モジュールを設計し,セマンティックな表現を強化し,マルチスケールな特徴を取り入れた。一方、デコーダは、因果変換器を用いて、TIR特徴と座標系列特徴を組み合わせて、目標シーケンスステップをステップごとに生成する。さらに,追跡精度の向上を目的とした適応的損失と,ターゲットの外観変化に対応するための簡易なテンプレート更新戦略について検討する。実験により、NLMTrackは複数のベンチマークで最先端のパフォーマンスを達成することが示された。コードは \url{https://github.com/ELOESZHANG/NLMTrack} で公開されている。

関連論文リスト

CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking [68.24998698508344]
CAMELはコンテキスト対応型マルチキューExpLoitationのための新しいアソシエイトモジュールである。エンド・ツー・エンドの検知・バイ・トラック方式とは異なり,本手法は軽量かつ高速にトレーニングが可能であり,外部のオフ・ザ・シェルフモデルを活用することができる。提案するオンライントラッキングパイプラインであるCAMELTrackは,複数のトラッキングベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-02T13:26:23Z)
SMTT: Novel Structured Multi-task Tracking with Graph-Regularized Sparse Representation for Robust Thermal Infrared Target Tracking [8.52497147463548]
熱赤外目標追跡は、監視、自律運転、軍事作戦などの応用において重要である。本稿では,熱赤外画像における共通課題を効果的に解決する新しいトラッカーSMTTを提案する。
論文参考訳（メタデータ） (2025-04-20T10:56:15Z)
STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文参考訳（メタデータ） (2024-09-17T14:34:18Z)
Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking [64.28025685503376]
SeqTrackは、ビジュアルトラッキングをシーケンス生成タスクとしてキャストし、オブジェクト境界ボックスを自動回帰的に予測する。 SeqTrackv2は補助モダリティのための統一インターフェースとタスクを指定するためのタスクプロンプトトークンのセットを統合している。このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、14の挑戦的なベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2023-04-27T17:56:29Z)
RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文参考訳（メタデータ） (2023-04-09T15:59:41Z)
Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2022-05-06T16:27:14Z)
Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文参考訳（メタデータ） (2022-01-22T02:31:56Z)
MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文参考訳（メタデータ） (2021-07-22T03:10:51Z)
TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。本手法は最先端のアルゴリズムに好適に作用する。
論文参考訳（メタデータ） (2021-05-09T02:32:28Z)
TransMOT: Spatial-Temporal Graph Transformer for Multiple Object Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。 TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文参考訳（メタデータ） (2021-04-01T01:49:05Z)
Transformer Tracking [76.96796612225295]
相関は追跡分野において、特に人気のあるシャム系トラッカーにおいて重要な役割を果たす。本研究は,注意のみを用いてテンプレートと検索領域を効果的に結合した,新しい注意型特徴融合ネットワークを提案する。実験により、TransTは6つの挑戦的なデータセットで非常に有望な結果が得られます。
論文参考訳（メタデータ） (2021-03-29T09:06:55Z)
Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文参考訳（メタデータ） (2020-07-04T08:11:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。