論文の概要: Reading Relevant Feature from Global Representation Memory for Visual
Object Tracking
- arxiv url: http://arxiv.org/abs/2402.14392v2
- Date: Fri, 23 Feb 2024 05:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 11:45:56.521847
- Title: Reading Relevant Feature from Global Representation Memory for Visual
Object Tracking
- Title(参考訳): ビジュアルオブジェクト追跡のためのグローバル表現メモリから関連機能を読み取る
- Authors: Xinyu Zhou, Pinxue Guo, Lingyi Hong, Jinglun Li, Wei Zhang, Weifeng
Ge, Wenqiang Zhang
- Abstract要約: テンプレートや過去のフレームからの参照機能は、ビジュアルオブジェクト追跡に不可欠である。
ビデオのダイナミックな性質のため、異なる時間ステップで異なる検索領域に対して要求される参照履歴情報も矛盾する。
本稿では,関連性注意機構とグローバル表現メモリからなる新しいトラッキングパラダイムを提案する。
- 参考スコア(独自算出の注目度): 28.90839852747668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference features from a template or historical frames are crucial for
visual object tracking. Prior works utilize all features from a fixed template
or memory for visual object tracking. However, due to the dynamic nature of
videos, the required reference historical information for different search
regions at different time steps is also inconsistent. Therefore, using all
features in the template and memory can lead to redundancy and impair tracking
performance. To alleviate this issue, we propose a novel tracking paradigm,
consisting of a relevance attention mechanism and a global representation
memory, which can adaptively assist the search region in selecting the most
relevant historical information from reference features. Specifically, the
proposed relevance attention mechanism in this work differs from previous
approaches in that it can dynamically choose and build the optimal global
representation memory for the current frame by accessing cross-frame
information globally. Moreover, it can flexibly read the relevant historical
information from the constructed memory to reduce redundancy and counteract the
negative effects of harmful information. Extensive experiments validate the
effectiveness of the proposed method, achieving competitive performance on five
challenging datasets with 71 FPS.
- Abstract(参考訳): テンプレートや過去のフレームからの参照機能は、ビジュアルオブジェクト追跡に不可欠である。
以前の作業では、固定テンプレートやメモリのすべての機能を視覚オブジェクト追跡に利用していた。
しかし,動画のダイナミックな性質から,異なる時間ステップにおける検索領域の参照履歴情報も一致しない。
したがって、テンプレートとメモリのすべての機能を使用することで冗長性とトラッキング性能が損なわれる可能性がある。
この問題を軽減するために,参照特徴から最も関連性の高い歴史的情報を選択する際に,検索領域を適応的に支援する,関連注意機構とグローバル表現メモリからなる新しい追跡パラダイムを提案する。
具体的には,従来の手法と異なり,クロスフレーム情報をグローバルにアクセスすることで,現在のフレームに対して最適なグローバル表現メモリを動的に選択・構築することができる。
さらに、構築されたメモリから関連する履歴情報を柔軟に読み取ることができ、冗長性を低減し、有害な情報のネガティブな影響に対処することができる。
拡張実験により提案手法の有効性が検証され,71 FPSの5つの挑戦データセット上での競合性能が得られた。
関連論文リスト
- TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。
本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。
提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文 参考訳(メタデータ) (2024-07-05T07:55:19Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Efficient Regional Memory Network for Video Object Segmentation [56.587541750729045]
半教師付きVOS(Regional Memory Network, RMNet)のための新しいローカル-ローカルマッチングソリューションを提案する。
提案するrmnetは、メモリとクエリフレームの両方における類似オブジェクトのあいまいさを効果的に緩和する。
実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2021-03-24T02:08:46Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。