Fugu-MT 論文翻訳(概要): Reading Relevant Feature from Global Representation Memory for Visual Object Tracking

論文の概要: Reading Relevant Feature from Global Representation Memory for Visual Object Tracking

arxiv url: http://arxiv.org/abs/2402.14392v2
Date: Fri, 23 Feb 2024 05:58:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 11:45:56.521847
Title: Reading Relevant Feature from Global Representation Memory for Visual Object Tracking
Title（参考訳）: ビジュアルオブジェクト追跡のためのグローバル表現メモリから関連機能を読み取る
Authors: Xinyu Zhou, Pinxue Guo, Lingyi Hong, Jinglun Li, Wei Zhang, Weifeng Ge, Wenqiang Zhang
Abstract要約: テンプレートや過去のフレームからの参照機能は、ビジュアルオブジェクト追跡に不可欠である。ビデオのダイナミックな性質のため、異なる時間ステップで異なる検索領域に対して要求される参照履歴情報も矛盾する。本稿では,関連性注意機構とグローバル表現メモリからなる新しいトラッキングパラダイムを提案する。
参考スコア（独自算出の注目度）: 28.90839852747668
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reference features from a template or historical frames are crucial for visual object tracking. Prior works utilize all features from a fixed template or memory for visual object tracking. However, due to the dynamic nature of videos, the required reference historical information for different search regions at different time steps is also inconsistent. Therefore, using all features in the template and memory can lead to redundancy and impair tracking performance. To alleviate this issue, we propose a novel tracking paradigm, consisting of a relevance attention mechanism and a global representation memory, which can adaptively assist the search region in selecting the most relevant historical information from reference features. Specifically, the proposed relevance attention mechanism in this work differs from previous approaches in that it can dynamically choose and build the optimal global representation memory for the current frame by accessing cross-frame information globally. Moreover, it can flexibly read the relevant historical information from the constructed memory to reduce redundancy and counteract the negative effects of harmful information. Extensive experiments validate the effectiveness of the proposed method, achieving competitive performance on five challenging datasets with 71 FPS.
Abstract（参考訳）: テンプレートや過去のフレームからの参照機能は、ビジュアルオブジェクト追跡に不可欠である。以前の作業では、固定テンプレートやメモリのすべての機能を視覚オブジェクト追跡に利用していた。しかし,動画のダイナミックな性質から,異なる時間ステップにおける検索領域の参照履歴情報も一致しない。したがって、テンプレートとメモリのすべての機能を使用することで冗長性とトラッキング性能が損なわれる可能性がある。この問題を軽減するために,参照特徴から最も関連性の高い歴史的情報を選択する際に,検索領域を適応的に支援する,関連注意機構とグローバル表現メモリからなる新しい追跡パラダイムを提案する。具体的には,従来の手法と異なり,クロスフレーム情報をグローバルにアクセスすることで,現在のフレームに対して最適なグローバル表現メモリを動的に選択・構築することができる。さらに、構築されたメモリから関連する履歴情報を柔軟に読み取ることができ、冗長性を低減し、有害な情報のネガティブな影響に対処することができる。拡張実験により提案手法の有効性が検証され,71 FPSの5つの挑戦データセット上での競合性能が得られた。

関連論文リスト

Query-focused and Memory-aware Reranker for Long Context Processing [47.33446560026716]
提案手法は,選択した頭部の注意スコアを用いて,パスクエリの妥当性を推定するモデルを訓練するフレームワークである。私たちのフレームワークは軽量で効果的で、強力なパフォーマンスを達成するために小さなモデルしか必要としません。
論文参考訳（メタデータ） (2026-02-12T17:23:38Z)
Unsupervised Dynamic Feature Selection for Robust Latent Spaces in Vision Tasks [5.167904179040144]
本稿では,非教師付き動的特徴選択(DFS)を用いた潜在表現の強化手法を提案する。提案手法は,各インスタンスに対して,画像中の誤認や冗長な情報を識別・削除し,最も関連性の高い特徴だけが潜時空間に寄与することを保証する。画像データセットを用いて行った実験では、教師なしDSSを備えたモデルが、様々なタスクにおける一般化性能を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-10-02T07:46:59Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos [24.03405963900272]
Video Camouflaged Object Detectionは、外見が周囲によく似ているオブジェクトを分割することを目的としている。既存の視覚モデルは、カモフラージュされた物体の識別不可能な外観のために、このようなシナリオでしばしば苦労する。人間の記憶認識にインスパイアされたエンドツーエンドのフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-21T11:08:14Z)
TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文参考訳（メタデータ） (2024-07-05T07:55:19Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文参考訳（メタデータ） (2023-08-25T17:30:08Z)
Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文参考訳（メタデータ） (2023-04-11T12:12:05Z)
Learning Dynamic Compact Memory Embedding for Deformable Visual Object Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。 DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文参考訳（メタデータ） (2021-11-23T03:07:12Z)
Efficient Regional Memory Network for Video Object Segmentation [56.587541750729045]
半教師付きVOS(Regional Memory Network, RMNet)のための新しいローカル-ローカルマッチングソリューションを提案する。提案するrmnetは、メモリとクエリフレームの両方における類似オブジェクトのあいまいさを効果的に緩和する。実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。
論文参考訳（メタデータ） (2021-03-24T02:08:46Z)
Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文参考訳（メタデータ） (2020-07-14T13:19:19Z)
Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文参考訳（メタデータ） (2020-07-14T08:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。