論文の概要: Rethinking Memory Design in SAM-Based Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2512.22624v1
- Date: Sat, 27 Dec 2025 15:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.142538
- Title: Rethinking Memory Design in SAM-Based Visual Object Tracking
- Title(参考訳): SAMに基づくビジュアルオブジェクト追跡におけるメモリ設計の再考
- Authors: Mohamad Alansari, Muzammal Naseer, Hasan Al Marzouqi, Naoufel Werghi, Sajid Javed,
- Abstract要約: 本稿では,SAMに基づく視覚的物体追跡のメモリ中心的な研究について述べる。
本稿では,メモリを短期的外見記憶と長期的外見記憶に明示的に分解するハイブリッドメモリフレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.85403035673912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: \noindent Memory has become the central mechanism enabling robust visual object tracking in modern segmentation-based frameworks. Recent methods built upon Segment Anything Model 2 (SAM2) have demonstrated strong performance by refining how past observations are stored and reused. However, existing approaches address memory limitations in a method-specific manner, leaving the broader design principles of memory in SAM-based tracking poorly understood. Moreover, it remains unclear how these memory mechanisms transfer to stronger, next-generation foundation models such as Segment Anything Model 3 (SAM3). In this work, we present a systematic memory-centric study of SAM-based visual object tracking. We first analyze representative SAM2-based trackers and show that most methods primarily differ in how short-term memory frames are selected, while sharing a common object-centric representation. Building on this insight, we faithfully reimplement these memory mechanisms within the SAM3 framework and conduct large-scale evaluations across ten diverse benchmarks, enabling a controlled analysis of memory design independent of backbone strength. Guided by our empirical findings, we propose a unified hybrid memory framework that explicitly decomposes memory into short-term appearance memory and long-term distractor-resolving memory. This decomposition enables the integration of existing memory policies in a modular and principled manner. Extensive experiments demonstrate that the proposed framework consistently improves robustness under long-term occlusion, complex motion, and distractor-heavy scenarios on both SAM2 and SAM3 backbones. Code is available at: https://github.com/HamadYA/SAM3_Tracking_Zoo. \textbf{This is a preprint. Some results are being finalized and may be updated in a future revision.}
- Abstract(参考訳): 最新のセグメンテーションベースのフレームワークで堅牢なビジュアルオブジェクト追跡を可能にする中心的なメカニズムは、Shanoindent Memoryである。
最近のSegment Anything Model 2 (SAM2) に基づく手法は、過去の観測がいかに保存され再利用されているかを精査することによって、強い性能を示した。
しかし、既存のアプローチではメモリ制限をメソッド固有の方法で解決しており、SAMベースのトラッキングではメモリのより広範な設計原則がよく理解されていない。
さらに、これらのメモリ機構が、Segment Anything Model 3 (SAM3) のようなより強力な次世代基盤モデルにどのように移行するかは、まだ不明である。
本研究では,SAMに基づく視覚的物体追跡の体系的メモリ中心型研究について述べる。
まず、SAM2ベースのトラッカーを解析し、ほとんどの手法が、オブジェクト中心の共通表現を共有しながら、短期記憶フレームの選択方法に大きく異なることを示す。
この知見に基づいて、SAM3フレームワーク内にこれらのメモリ機構を忠実に再実装し、10種類のベンチマークで大規模な評価を行い、バックボーン強度に依存しないメモリ設計の制御分析を可能にする。
本研究では,メモリを短期的な外見記憶と長期的な外見記憶に明示的に分解するハイブリッドメモリフレームワークを提案する。
この分解により、既存のメモリポリシーをモジュール的で原則化された方法で統合することができる。
広範囲にわたる実験により、提案フレームワークはSAM2とSAM3のバックボーン上での長期閉塞、複雑な動き、およびイントラクタ重みのシナリオの下で、一貫してロバスト性を改善することが示されている。
コードは、https://github.com/HamadYA/SAM3_Tracking_Zoo.comで入手できる。
textbf{これはプレプリントです。
いくつかの結果は確定しており、将来の改訂で更新される可能性がある。
※
関連論文リスト
- Memory in the Age of AI Agents [217.9368190980982]
この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。
我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。
実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
論文 参考訳(メタデータ) (2025-12-15T17:22:34Z) - Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.76038908826961]
我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。
ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。
BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
論文 参考訳(メタデータ) (2025-12-11T14:40:01Z) - MemoryKT: An Integrative Memory-and-Forgetting Method for Knowledge Tracing [7.096160553754792]
学生の記憶状態をシミュレーションすることは、知識追跡モデルの性能と解釈可能性の両方を高めるための有望なアプローチである。
メモリは、エンコーディング、ストレージ、検索の3つの基本的なプロセスから構成される。
本稿では,新しい時間変動オートエンコーダに基づく知識追跡モデルであるMemoryKTを提案する。
論文 参考訳(メタデータ) (2025-08-11T15:59:59Z) - SAM2RL: Towards Reinforcement Learning Memory Control in Segment Anything Model 2 [2.659882635924329]
Segment Anything Model 2 (SAM2) は、オブジェクトセグメンテーションタスクにおいて強力なパフォーマンスを示している。
最近の方法では、イントラクタやオブジェクトの動きをよりよく扱うために手作りの更新ルールでSAM 2を拡張している。
SAM 2におけるメモリ更新を最適化するための強化学習を用いた基本的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-11T12:53:19Z) - MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection [21.22536962888316]
モデルにオブジェクトモーションキューを統合し、より信頼性の高い特徴記憶を確立するための2つの重要な戦略を組み込んだMoSAMを提案する。
MoSAMは、他の競合と比べて最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-04-30T02:19:31Z) - A Distractor-Aware Memory for Visual Object Tracking with SAM2 [11.864619292028278]
メモリベースのトラッカー(英: Memory-based tracker)は、最近追跡されたフレームをメモリバッファに連結し、現在の画像をバッファされたフレームに到達させることでターゲットをローカライズすることにより、ターゲットモデルを形成するビデオオブジェクトセグメンテーション手法である。
SAM2.1++はSAM2.1と関連するSAMメモリ拡張を7つのベンチマークで上回り、6つのベンチマークで新しい最先端を設定できる。
論文 参考訳(メタデータ) (2024-11-26T16:41:09Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z) - Memory-Based Semantic Parsing [79.48882899104997]
文脈依存型セマンティック解析のためのメモリベースモデルを提案する。
逐次的ユーザ発話の累積的意味を維持することにより,メモリ管理を行うコンテキストメモリコントローラを学習する。
論文 参考訳(メタデータ) (2021-09-07T16:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。