Fugu-MT 論文翻訳(概要): TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking

論文の概要: TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking

arxiv url: http://arxiv.org/abs/2407.04327v2
Date: Mon, 15 Jul 2024 08:13:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 23:47:23.985000
Title: TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking
Title（参考訳）: TF-SASM:マルチオブジェクト追跡のための訓練不要空間認識スパースメモリ
Authors: Thuc Nguyen-Quang, Minh-Triet Tran,
Abstract要約: コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
参考スコア（独自算出の注目度）: 6.91631684487121
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-object tracking (MOT) in computer vision remains a significant challenge, requiring precise localization and continuous tracking of multiple objects in video sequences. The emergence of data sets that emphasize robust reidentification, such as DanceTrack, has highlighted the need for effective solutions. While memory-based approaches have shown promise, they often suffer from high computational complexity and memory usage due to storing feature at every single frame. In this paper, we propose a novel memory-based approach that selectively stores critical features based on object motion and overlapping awareness, aiming to enhance efficiency while minimizing redundancy. As a result, our method not only store longer temporal information with limited number of stored features in the memory, but also diversify states of a particular object to enhance the association performance. Our approach significantly improves over MOTRv2 in the DanceTrack test set, demonstrating a gain of 2.0% AssA score and 2.1% in IDF1 score.
Abstract（参考訳）: コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。 DanceTrackのような堅牢な再識別を強調するデータセットの出現は、効果的なソリューションの必要性を強調している。メモリベースのアプローチは将来性を示しているが、各フレームに格納する機能のために、高い計算複雑性とメモリ使用量に悩まされることが多い。本稿では,物体の動きと重なり合う認識に基づく重要な特徴を選択的に記憶するメモリベース手法を提案する。その結果、メモリに格納される特徴の限られた時間情報だけでなく、特定のオブジェクトの状態も多様化し、関連性能を高めることができた。提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。

関連論文リスト

HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback [0.0]
本稿では,高画質ビデオセグメンテーションとスマートメモリを用いたトラッキングのためのHQ-SMemを紹介する。提案手法には, SAMと高品質マスク(SAM-HQ)を併用して, 粗いセグメンテーションマスクを改良し, オブジェクト境界を改良する, (ii) 冗長なキーフレームを廃棄しながら, 関連キーフレームを選択的に格納する動的スマートメモリ機構を実装し, (iii) 複雑なトポロジ的オブジェクトの変動を効果的に処理し, ビデオ全体のドリフトを低減するための外観モデルを動的に更新する,という3つの重要なイノベーションが含まれている。
論文参考訳（メタデータ） (2025-07-25T03:28:05Z)
Dynamic Attention Mechanism in Spatiotemporal Memory Networks for Object Tracking [8.040709469401257]
本研究では,空間的注意重みを解析することにより,注意重みを適応的に調節する動的注意機構を提案する。目標運動状態に基づいて計算資源を自律的に割り当てる軽量ゲーティングネットワークは、挑戦的なシナリオにおいて高い識別可能性の特徴を優先する。
論文参考訳（メタデータ） (2025-03-21T00:48:31Z)
MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文参考訳（メタデータ） (2024-06-11T12:03:57Z)
MAMBA: Multi-level Aggregation via Memory Bank for Video Object Detection [35.16197118579414]
我々は,MAMBAと呼ばれるメモリバンクを用いたマルチレベル集約アーキテクチャを提案する。具体的には,既存の手法の欠点を解消するために,メモリバンクが2つの新しい操作を施している。従来の最先端手法と比較して,提案手法は速度と精度の両面で優れた性能を発揮する。
論文参考訳（メタデータ） (2024-01-18T12:13:06Z)
Transformer Network for Multi-Person Tracking and Re-Identification in Unconstrained Environment [0.6798775532273751]
マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。我々は、オブジェクト検出とアイデンティティリンクを単一のエンドツーエンドのトレーニング可能なフレームワーク内にマージする統合MOT手法を提唱した。本システムでは,記憶時記憶モジュールの高機能化を図り,アグリゲータを用いて効果的に記憶時記憶モジュールを符号化する。
論文参考訳（メタデータ） (2023-12-19T08:15:22Z)
Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-11-17T08:17:49Z)
SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。 SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文参考訳（メタデータ） (2023-09-29T05:13:43Z)
Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文参考訳（メタデータ） (2023-04-24T06:19:21Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。 MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文参考訳（メタデータ） (2022-03-31T02:33:20Z)
Learning Dynamic Compact Memory Embedding for Deformable Visual Object Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。 DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文参考訳（メタデータ） (2021-11-23T03:07:12Z)
Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文参考訳（メタデータ） (2021-06-09T16:50:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。