論文の概要: Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization
- arxiv url: http://arxiv.org/abs/2509.11772v1
- Date: Mon, 15 Sep 2025 10:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.235777
- Title: Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization
- Title(参考訳): Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization
- Authors: Diogo Mendonça, Tiago Barros, Cristiano Premebida, Urbano J. Nunes,
- Abstract要約: Seg2Track-SAM2は、事前訓練されたオブジェクト検出器とSAM2と新しいSeg2Trackモジュールを統合するフレームワークである。
Seg2Track-SAM2は最先端(SOTA)のパフォーマンスを達成し、KITTI MOTSでは車と歩行者の両方で総合4位にランクインした。
結果、Seg2Track-SAM2は、堅牢なゼロショットトラッキング、強化されたアイデンティティ保存、効率的なメモリ利用を組み合わせることで、MOTSの進歩を確認した。
- 参考スコア(独自算出の注目度): 3.108551551357326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous systems require robust Multi-Object Tracking (MOT) capabilities to operate reliably in dynamic environments. MOT ensures consistent object identity assignment and precise spatial delineation. Recent advances in foundation models, such as SAM2, have demonstrated strong zero-shot generalization for video segmentation, but their direct application to MOTS (MOT+Segmentation) remains limited by insufficient identity management and memory efficiency. This work introduces Seg2Track-SAM2, a framework that integrates pre-trained object detectors with SAM2 and a novel Seg2Track module to address track initialization, track management, and reinforcement. The proposed approach requires no fine-tuning and remains detector-agnostic. Experimental results on KITTI MOT and KITTI MOTS benchmarks show that Seg2Track-SAM2 achieves state-of-the-art (SOTA) performance, ranking fourth overall in both car and pedestrian classes on KITTI MOTS, while establishing a new benchmark in association accuracy (AssA). Furthermore, a sliding-window memory strategy reduces memory usage by up to 75% with negligible performance degradation, supporting deployment under resource constraints. These results confirm that Seg2Track-SAM2 advances MOTS by combining robust zero-shot tracking, enhanced identity preservation, and efficient memory utilization. The code is available at https://github.com/hcmr-lab/Seg2Track-SAM2
- Abstract(参考訳): 自律システムは動的環境で確実に動作するために、堅牢なマルチオブジェクトトラッキング(MOT)機能を必要とする。
MOTは、一貫したオブジェクトのアイデンティティ割り当てと正確な空間的記述を保証する。
SAM2のような基盤モデルの最近の進歩は、ビデオセグメンテーションの強力なゼロショット一般化を実証しているが、そのMOTS(MOT+セグメンテーション)への直接適用は、アイデンティティ管理とメモリ効率の不足によって制限されている。
これは、事前訓練されたオブジェクト検出器とSAM2と新しいSeg2Trackモジュールを統合し、トラックの初期化、トラック管理、強化に対処するフレームワークである。
提案手法は微調整を必要とせず、検出器に依存しない。
KITTI MOTおよびKITTI MOTSベンチマークによる実験結果から,Seg2Track-SAM2がSOTA(State-of-the-art)性能を達成し,KITTI MOTSにおける車と歩行者の両方のクラスで総合4位となり,相関精度(AssA)の新たなベンチマークが確立された。
さらに、スライディングウィンドウメモリ戦略は、リソース制約下でのデプロイメントをサポートするため、メモリ使用量を最大75%削減する。
これらの結果から,Seg2Track-SAM2は,ロバストなゼロショット追跡,アイデンティティ保存の強化,メモリ利用の効率化を両立させることで,MOTSの進歩を確認した。
コードはhttps://github.com/hcmr-lab/Seg2Track-SAM2で公開されている。
関連論文リスト
- TSMS-SAM2: Multi-scale Temporal Sampling Augmentation and Memory-Splitting Pruning for Promptable Video Object Segmentation and Tracking in Surgical Scenarios [1.0596160761674702]
本稿では,高速物体運動とメモリ冗長性の課題に対処して,手術ビデオにおけるVOSTの高速化を実現する新しいフレームワークであるTSMS-SAM2を提案する。
TSMS-SAM2は、動作変動に対する堅牢性を改善するためのマルチ時間スケールビデオサンプリング強化と、過去のフレーム機能を整理・フィルタリングするメモリ分割・プルーニングメカニズムの2つの主要な戦略を導入している。
論文 参考訳(メタデータ) (2025-08-07T20:11:15Z) - SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。
我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。
我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文 参考訳(メタデータ) (2025-08-05T15:36:13Z) - SAM2MOT: A Novel Paradigm of Multi-Object Tracking by Segmentation [11.1906749425206]
Segment Anything 2 (SAM2)は、セグメンテーションを使った堅牢な単一オブジェクト追跡を可能にする。
本稿では,多目的追跡のための新しいトラッキング・バイ・パラダイムであるSAM2MOTを提案する。
SAM2MOTはセグメンテーションマスクから直接トラッキングボックスを生成し、検出精度への依存を減らす。
論文 参考訳(メタデータ) (2025-04-06T15:32:08Z) - A Distractor-Aware Memory for Visual Object Tracking with SAM2 [11.864619292028278]
メモリベースのトラッカー(英: Memory-based tracker)は、最近追跡されたフレームをメモリバッファに連結し、現在の画像をバッファされたフレームに到達させることでターゲットをローカライズすることにより、ターゲットモデルを形成するビデオオブジェクトセグメンテーション手法である。
SAM2.1++はSAM2.1と関連するSAMメモリ拡張を7つのベンチマークで上回り、6つのベンチマークで新しい最先端を設定できる。
論文 参考訳(メタデータ) (2024-11-26T16:41:09Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT
Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。
効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。
動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。
我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文 参考訳(メタデータ) (2021-04-25T00:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。