論文の概要: TCTrack: Temporal Contexts for Aerial Tracking
- arxiv url: http://arxiv.org/abs/2203.01885v1
- Date: Thu, 3 Mar 2022 18:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 16:07:00.534285
- Title: TCTrack: Temporal Contexts for Aerial Tracking
- Title(参考訳): TCTrack: 航空追跡のための時間的コンテキスト
- Authors: Ziang Cao, Ziyuan Huang, Liang Pan, Shiwei Zhang, Ziwei Liu, Changhong
Fu
- Abstract要約: TCTrackは、航空追跡のための時間的コンテキストを完全に活用するための包括的なフレームワークである。
特徴抽出のために,空間的特徴を高めるために,オンライン時間適応型畳み込みを提案する。
類似性マップの改良のために,まず時間的知識をメモリ効率のよい方法で効果的に符号化する適応時間変換器を提案する。
- 参考スコア(独自算出の注目度): 38.87248176223548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal contexts among consecutive frames are far from been fully utilized
in existing visual trackers. In this work, we present TCTrack, a comprehensive
framework to fully exploit temporal contexts for aerial tracking. The temporal
contexts are incorporated at \textbf{two levels}: the extraction of
\textbf{features} and the refinement of \textbf{similarity maps}. Specifically,
for feature extraction, an online temporally adaptive convolution is proposed
to enhance the spatial features using temporal information, which is achieved
by dynamically calibrating the convolution weights according to the previous
frames. For similarity map refinement, we propose an adaptive temporal
transformer, which first effectively encodes temporal knowledge in a
memory-efficient way, before the temporal knowledge is decoded for accurate
adjustment of the similarity map. TCTrack is effective and efficient:
evaluation on four aerial tracking benchmarks shows its impressive performance;
real-world UAV tests show its high speed of over 27 FPS on NVIDIA Jetson AGX
Xavier.
- Abstract(参考訳): 連続するフレーム間の時間的コンテキストは、既存のビジュアルトラッカーで完全に活用されるには程遠い。
本稿では,航空追跡のための時間的コンテキストを完全に活用するための総合的なフレームワークであるTCTrackを提案する。
時間文脈は \textbf{two level} に組み込まれ、これは \textbf{features} の抽出と \textbf{similarity map} の洗練である。
具体的には,先行するフレームに応じて畳み込み重みを動的に調整することにより,時間的情報を用いて空間的特徴を高めるために,オンラインの時間適応畳み込みを提案する。
まず,類似度マップの正確な調整のために時間知識が復号される前に,時間知識をメモリ効率のよい方法で効果的に符号化する適応時相変換器を提案する。
TCTrackは効率的かつ効率的で、4つの航空追跡ベンチマークの評価は、その印象的なパフォーマンスを示している。現実世界のUAVテストはNVIDIA Jetson AGX Xavier上で27FPS以上の高速さを示している。
関連論文リスト
- Local All-Pair Correspondence for Point Tracking [59.76186266230608]
ビデオシーケンス間の任意の点(TAP)を追跡するタスクのために設計された,高精度かつ効率的なモデルであるLocoTrackを紹介する。
LocoTrackは、すべてのTAP-Vidベンチマークで未整合の精度を実現し、現在の最先端の約6倍の速度で動作している。
論文 参考訳(メタデータ) (2024-07-22T06:49:56Z) - MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping [21.5611219371754]
本稿では,このマッピングをトラッキングタスクとして定式化し,メモリラテント履歴を用いて時間とともに一貫した再構成を行うベクトルHDマッピングアルゴリズムを提案する。
MapTrackerは、nuScenesとAgroverse2の両方のデータセットの既存のメソッドを、従来のメトリクスと新しい一貫性を意識したメトリクスでそれぞれ8%と19%以上上回っている。
論文 参考訳(メタデータ) (2024-03-23T23:05:25Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - Towards Real-World Visual Tracking with Temporal Contexts [64.7981374129495]
時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。
これに基づいて、現実世界の視覚的トラッキング、すなわちTCTrack++のためのより強力なバージョンを提案する。
特徴抽出のために,空間的特徴を高めるために注意に基づく時間適応的畳み込みを提案する。
類似性マップの改良のために,時間的知識を効率的に符号化する適応型時間的変換器を導入する。
論文 参考訳(メタデータ) (2023-08-20T17:59:40Z) - ProContEXT: Exploring Progressive Context Transformer for Tracking [20.35886416084831]
既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
私たちはプログレッシブコンテキストでフレームワークを改訂しました。
Transformer Tracker (ProContEXT) は空間的・時間的文脈を利用して物体の動きの軌跡を予測する。
論文 参考訳(メタデータ) (2022-10-27T14:47:19Z) - Progressive Temporal Feature Alignment Network for Video Inpainting [51.26380898255555]
ビデオ畳み込みは、時間内「破損した地域」に可能な内容で埋めることを目指しています。
現在の方法は、注意、フローベースのワープ、あるいは3次元時間的畳み込みによってこの目標を達成する。
現在のフレームから抽出された特徴を、隣接するフレームから歪んだ特徴で段階的に強化する「プログレッシブ・テンポラリティ・アライメント・ネットワーク」を提案します。
論文 参考訳(メタデータ) (2021-04-08T04:50:33Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。