論文の概要: TinySAM 2: Extreme Memory Compression for Efficient Track Anything Model
- arxiv url: http://arxiv.org/abs/2605.18013v1
- Date: Mon, 18 May 2026 08:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.101922
- Title: TinySAM 2: Extreme Memory Compression for Efficient Track Anything Model
- Title(参考訳): TinySAM 2: 効率的なトラック任意のモデルのための極端なメモリ圧縮
- Authors: Zhaoyuan Ding, Yijing Yang, Han Shu, Xinghao Chen,
- Abstract要約: TinySAM 2は、パフォーマンスと効率のバランスをとる軽量なビデオセグメンテーションモデルである。
DAVISやSA-Vのような挑戦的なデータセットの実験では、TinySAM 2がSAM 2.1のパフォーマンスの90%を達成している。
- 参考スコア(独自算出の注目度): 9.471131843884953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model 2 (SAM 2) serves as a core foundation model in the field of video segmentation. Building upon the original SAM model, it introduces a memory bank mechanism and demonstrates outstanding performance in tasks such as semi-supervised video object segmentation and tracking anything. However, the complex computational characteristics of SAM 2's multi-stage image encoder and memory module have raised the barrier to the model's deployment in practical applications. To address this issue, we propose TinySAM 2, a lightweight video segmentation model that balances performance and efficiency. First, a memory quality management mechanism is introduced to select and retain high-informative historical frames as the memory. In addition, a joint-spatial-temporal token compression is proposed that reduces the memory storage and computational cost. Specifically, average pooling is employed to first compress redundancy tokens in the spatial domain. In the temporal domain, informative tokens are selected across frames in the memory bank based on token-level similarity measurement. Besides, we take RepViT as the lightweight image encoder, which further reduces the model parameters. Extensive experiments on challenging datasets such as DAVIS and SA-V demonstrate that TinySAM 2 achieves 90% of the performance of SAM 2.1, with only 7% memory tokens and 3% training data. This study effectively alleviates the bottlenecks in parameter count, computational load, and deployment costs associated with SAM 2, providing a resource-efficient solution for the widespread application of video segmentation models on devices.
- Abstract(参考訳): Segment Anything Model 2 (SAM 2) はビデオセグメンテーションの分野でコアとなる基礎モデルとして機能する。
オリジナルのSAMモデルに基づいて、メモリバンク機構を導入し、半教師付きビデオオブジェクトのセグメンテーションや追跡などのタスクで優れたパフォーマンスを示す。
しかし、SAM 2の多段画像エンコーダとメモリモジュールの複雑な計算特性は、実用的な応用におけるモデルの展開に障壁を生じさせている。
この問題に対処するために,パフォーマンスと効率のバランスをとる軽量ビデオセグメンテーションモデルTinySAM 2を提案する。
まず、メモリとして高性能な履歴フレームを選択・保持するために、メモリ品質管理機構を導入する。
さらに,メモリストレージと計算コストを低減させる共同空間・時空間トークン圧縮を提案する。
具体的には、空間領域で最初に冗長トークンを圧縮するために平均プーリングを用いる。
時間領域では、トークンレベルの類似度測定に基づいて、メモリバンク内のフレーム間で情報トークンが選択される。
さらに、RepViTを軽量画像エンコーダとし、モデルパラメータをさらに削減する。
DAVISやSA-Vといった挑戦的なデータセットに関する大規模な実験は、TinySAM 2がSAM 2.1のパフォーマンスの90%を達成していることを示している。
本研究は,SAM 2に関連するパラメータ数,計算負荷,展開コストのボトルネックを効果的に軽減し,デバイスにビデオセグメンテーションモデルを広く適用するための資源効率の高いソリューションを提供する。
関連論文リスト
- Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval [22.632907736085034]
Segment Anything Model 2 (SAM2) は、ビデオオブジェクトのセグメンテーションタスクにおいて優れたパフォーマンスを示す。
本稿では,タスク非関連計算を排除しつつ,SAM2がオブジェクト領域に適応的に焦点を合わせることを促すEfficient-SAM2を提案する。
無視可能な追加パラメータと最小限のトレーニングオーバーヘッドにより、Efficient-SAM2はSAM2.1-Lモデルで1.68倍の高速化を実現し、SA-Vテストセットでは1.0%の精度低下しか達成できない。
論文 参考訳(メタデータ) (2026-02-09T02:58:33Z) - Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。
本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。
我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文 参考訳(メタデータ) (2025-12-01T15:15:16Z) - MemorySAM: Memorize Modalities and Semantics with Segment Anything Model 2 for Multi-modal Semantic Segmentation [22.482211353379927]
大型ビジョンモデルであるAnythingCube Model 2 (SAM2)は、画像とビデオの両方でゼロショットセグメンテーション性能が強い。
ビデオにおけるクロスフレーム相関に着想を得て,同一シーンを表すフレームの列としてマルチモーダルデータを扱うことを提案する。
私たちのキーとなるアイデアは、モダリティに依存しない情報を「記憶」し、ターゲットのシーンに関連する意味を「記憶」することです。
論文 参考訳(メタデータ) (2025-03-09T17:33:15Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - Efficient Track Anything [32.0480507678127]
Segment Anything Model 2 (SAM2)は、ビデオオブジェクトのセグメンテーションと追跡のための強力なツールとして登場した。
多段画像エンコーダとメモリモジュールの複雑さは、実世界のタスクにおける応用を制限している。
本稿では,低レイテンシとモデルサイズで高品質な結果をもたらすモデルを軽量に追跡する,効率的なTAMを提案する。
論文 参考訳(メタデータ) (2024-11-28T05:52:10Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。