論文の概要: Efficient Track Anything
- arxiv url: http://arxiv.org/abs/2411.18933v1
- Date: Thu, 28 Nov 2024 05:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:18.585409
- Title: Efficient Track Anything
- Title(参考訳): 効率的なトラック
- Authors: Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra,
- Abstract要約: Segment Anything Model 2 (SAM2)は、ビデオオブジェクトのセグメンテーションと追跡のための強力なツールとして登場した。
多段画像エンコーダとメモリモジュールの複雑さは、実世界のタスクにおける応用を制限している。
本稿では,低レイテンシとモデルサイズで高品質な結果をもたらすモデルを軽量に追跡する,効率的なTAMを提案する。
- 参考スコア(独自算出の注目度): 32.0480507678127
- License:
- Abstract: Segment Anything Model 2 (SAM 2) has emerged as a powerful tool for video object segmentation and tracking anything. Key components of SAM 2 that drive the impressive video object segmentation performance include a large multistage image encoder for frame feature extraction and a memory mechanism that stores memory contexts from past frames to help current frame segmentation. The high computation complexity of multistage image encoder and memory module has limited its applications in real-world tasks, e.g., video object segmentation on mobile devices. To address this limitation, we propose EfficientTAMs, lightweight track anything models that produce high-quality results with low latency and model size. Our idea is based on revisiting the plain, nonhierarchical Vision Transformer (ViT) as an image encoder for video object segmentation, and introducing an efficient memory module, which reduces the complexity for both frame feature extraction and memory computation for current frame segmentation. We take vanilla lightweight ViTs and efficient memory module to build EfficientTAMs, and train the models on SA-1B and SA-V datasets for video object segmentation and track anything tasks. We evaluate on multiple video segmentation benchmarks including semi-supervised VOS and promptable video segmentation, and find that our proposed EfficientTAM with vanilla ViT perform comparably to SAM 2 model (HieraB+SAM 2) with ~2x speedup on A100 and ~2.4x parameter reduction. On segment anything image tasks, our EfficientTAMs also perform favorably over original SAM with ~20x speedup on A100 and ~20x parameter reduction. On mobile devices such as iPhone 15 Pro Max, our EfficientTAMs can run at ~10 FPS for performing video object segmentation with reasonable quality, highlighting the capability of small models for on-device video object segmentation applications.
- Abstract(参考訳): Segment Anything Model 2 (SAM2)は、ビデオオブジェクトのセグメンテーションと追跡のための強力なツールとして登場した。
印象的なビデオオブジェクトセグメンテーションパフォーマンスを駆動するSAM 2のキーコンポーネントは、フレーム特徴抽出のための大規模な多段階画像エンコーダと、現在のフレームセグメンテーションを支援するために過去のフレームからメモリコンテキストを保存するメモリメカニズムである。
多段画像エンコーダとメモリモジュールの計算複雑性は、モバイルデバイス上のビデオオブジェクトセグメンテーションなど、実世界のタスクにおける応用を制限している。
この制限に対処するために、低レイテンシとモデルサイズで高品質な結果をもたらすあらゆるモデルを軽量に追跡する効率的なTAMを提案する。
我々のアイデアは、ビデオオブジェクトセグメンテーションのためのイメージエンコーダとして、平らで非階層的なヴィジュアルトランスフォーマー(ViT)を再検討することと、現在のフレームセグメンテーションにおけるフレーム特徴抽出とメモリ計算の複雑さを低減するための効率的なメモリモジュールの導入に基づいている。
我々は、バニラ軽量ViTと効率的なメモリモジュールを使って、効率的なTAMを構築し、SA-1BおよびSA-Vデータセット上で、ビデオオブジェクトセグメンテーションのためのモデルをトレーニングし、あらゆるタスクを追跡します。
半教師付きVOSとプロンプト可能なビデオセグメンテーションを含む複数のビデオセグメンテーションベンチマークで評価し,提案手法がSAM2モデル(HieraB+SAM2)に比較可能であり,A100の約2倍,パラメータの約2.4倍の高速化を実現していることを確認した。
イメージタスクのセグメント化に関しては、A100の20倍の高速化と20倍のパラメータリダクションにより、元のSAMよりも効率の良いパフォーマンスを実現しています。
iPhone 15 Pro Maxのようなモバイルデバイスでは、ビデオオブジェクトのセグメンテーションを合理的な品質で実行するための効率の良いTAMを約10 FPSで実行し、オンデバイスビデオオブジェクトのセグメンテーションアプリケーションのための小さなモデルの性能を強調します。
関連論文リスト
- EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree [79.26409013413003]
SAM2Longは、トレーニング不要のビデオオブジェクトセグメンテーションを改良した手法である。
各フレーム内のセグメンテーションの不確実性を考慮し、複数のセグメンテーション経路からビデオレベルの最適結果を選択する。
SAM2Longは、24の頭対頭比較で平均3.0点の改善を実現している。
論文 参考訳(メタデータ) (2024-10-21T17:59:19Z) - Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。
SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。
訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文 参考訳(メタデータ) (2024-08-19T16:13:14Z) - SAM 2: Segment Anything in Images and Videos [63.44869623822368]
本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。
ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。
我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T17:00:08Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。