論文の概要: HiM2SAM: Enhancing SAM2 with Hierarchical Motion Estimation and Memory Optimization towards Long-term Tracking
- arxiv url: http://arxiv.org/abs/2507.07603v1
- Date: Thu, 10 Jul 2025 10:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.353404
- Title: HiM2SAM: Enhancing SAM2 with Hierarchical Motion Estimation and Memory Optimization towards Long-term Tracking
- Title(参考訳): HiM2SAM:階層的な動き推定と長期追跡のためのメモリ最適化によるSAM2の強化
- Authors: Ruixiang Chen, Guolei Sun, Yawei Li, Jie Qin, Luca Benini,
- Abstract要約: 本稿では,映像オブジェクト追跡タスクにおけるSAM2フレームワークの拡張について述べる。
本稿では,線形線形予測と選択的な非線形補正を組み合わせた階層的動き推定手法を提案し,学習を必要とせずに追従精度を向上させる。
- 参考スコア(独自算出の注目度): 48.05251729350641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents enhancements to the SAM2 framework for video object tracking task, addressing challenges such as occlusions, background clutter, and target reappearance. We introduce a hierarchical motion estimation strategy, combining lightweight linear prediction with selective non-linear refinement to improve tracking accuracy without requiring additional training. In addition, we optimize the memory bank by distinguishing long-term and short-term memory frames, enabling more reliable tracking under long-term occlusions and appearance changes. Experimental results show consistent improvements across different model scales. Our method achieves state-of-the-art performance on LaSOT and LaSOText with the large model, achieving 9.6% and 7.2% relative improvements in AUC over the original SAM2, and demonstrates even larger relative gains on smaller models, highlighting the effectiveness of our trainless, low-overhead improvements for boosting long-term tracking performance. The code is available at https://github.com/LouisFinner/HiM2SAM.
- Abstract(参考訳): 本稿では,映像オブジェクト追跡タスクのSAM2フレームワークの改良,オクルージョン,バックグラウンド・クラッタ,ターゲット再出現といった課題に対処する。
本稿では,線形線形予測と選択的な非線形補正を組み合わせた階層的動き推定手法を導入し,追従精度の向上を図る。
さらに、長期記憶フレームと短期記憶フレームを区別してメモリバンクを最適化し、長期閉塞下でのより信頼性の高いトラッキングと外観変化を可能にする。
実験の結果、異なるモデルスケールで一貫した改善が見られた。
提案手法は,大規模モデルを用いたLaSOTおよびLaSOTextの最先端性能を実現し,従来のSAM2に比べてAUCの9.6%および7.2%の相対的改善を実現し,より小型モデルに対する相対的な向上を実証し,長期追跡性能向上のための非訓練的低オーバーヘッド改善の有効性を強調した。
コードはhttps://github.com/LouisFinner/HiM2SAMで入手できる。
関連論文リスト
- Progressive Scaling Visual Object Tracking [38.28834233600855]
本稿では,学習データ量,モデルサイズ,入力解像度がトラッキング性能に与える影響を系統的に分析し,視覚オブジェクト追跡のための漸進的スケーリングトレーニング戦略を提案する。
実験により, 各因子のスケーリングは, 追跡精度を大幅に向上させるが, ナイーブトレーニングは最適下最適化と反復改善の制限に悩まされることがわかった。
DT-Trainingは、モデルポテンシャルを最大化するために、小さな教師の移動とデュアルブランチアライメントを統合するプログレッシブスケーリングフレームワークである。
論文 参考訳(メタデータ) (2025-05-26T13:45:27Z) - SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory [23.547018300192065]
本稿では,視覚的物体追跡に特化して設計されたSAM 2を改良したSAmuraiを紹介する。
提案した動き認識メモリ選択機構に時間的動作手がかりを組み込むことで、物体の動きを効果的に予測し、マスク選択を洗練し、トレーニングや微調整を必要とせず、堅牢で正確なトラッキングを実現する。
評価では、既存のトラッカーよりも成功率と精度が大幅に向上し、LaSOT$_ext$で7.1%、GOT-10kで3.5%向上した。
論文 参考訳(メタデータ) (2024-11-18T05:59:03Z) - TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。
本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。
提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文 参考訳(メタデータ) (2024-07-05T07:55:19Z) - RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。