論文の概要: Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval
- arxiv url: http://arxiv.org/abs/2602.08224v1
- Date: Mon, 09 Feb 2026 02:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.040778
- Title: Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval
- Title(参考訳): Efficient-SAM2: オブジェクト認識型ビジュアルエンコーディングとメモリ検索によるSAM2の高速化
- Authors: Jing Zhang, Zhikai Li, Xuewen Liu, Qingyi Gu,
- Abstract要約: Segment Anything Model 2 (SAM2) は、ビデオオブジェクトのセグメンテーションタスクにおいて優れたパフォーマンスを示す。
本稿では,タスク非関連計算を排除しつつ,SAM2がオブジェクト領域に適応的に焦点を合わせることを促すEfficient-SAM2を提案する。
無視可能な追加パラメータと最小限のトレーニングオーバーヘッドにより、Efficient-SAM2はSAM2.1-Lモデルで1.68倍の高速化を実現し、SA-Vテストセットでは1.0%の精度低下しか達成できない。
- 参考スコア(独自算出の注目度): 22.632907736085034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model 2 (SAM2) shows excellent performance in video object segmentation tasks; however, the heavy computational burden hinders its application in real-time video processing. Although there have been efforts to improve the efficiency of SAM2, most of them focus on retraining a lightweight backbone, with little exploration into post-training acceleration. In this paper, we observe that SAM2 exhibits sparse perception pattern as biological vision, which provides opportunities for eliminating redundant computation and acceleration: i) In mask decoder, the attention primarily focuses on the foreground objects, whereas the image encoder in the earlier stage exhibits a broad attention span, which results in unnecessary computation to background regions. ii) In memory bank, only a small subset of tokens in each frame contribute significantly to memory attention, and the salient regions exhibit temporal consistency, making full-token computation redundant. With these insights, we propose Efficient-SAM2, which promotes SAM2 to adaptively focus on object regions while eliminating task-irrelevant computations, thereby significantly improving inference efficiency. Specifically, for image encoder, we propose object-aware Sparse Window Routing (SWR), a window-level computation allocation mechanism that leverages the consistency and saliency cues from the previous-frame decoder to route background regions into a lightweight shortcut branch. Moreover, for memory attention, we propose object-aware Sparse Memory Retrieval (SMR), which allows only the salient memory tokens in each frame to participate in computation, with the saliency pattern reused from their first recollection. With negligible additional parameters and minimal training overhead, Efficient-SAM2 delivers 1.68x speedup on SAM2.1-L model with only 1.0% accuracy drop on SA-V test set.
- Abstract(参考訳): Segment Anything Model 2 (SAM2) は、ビデオオブジェクトのセグメンテーションタスクにおいて優れた性能を示すが、計算負荷が大きいため、リアルタイムなビデオ処理においてその適用を妨げている。
SAM2の効率を改善する努力はあったが、そのほとんどは軽量のバックボーンの再訓練に重点を置いており、後続の加速の研究はほとんど行われていない。
本稿では, SAM2が生物学的視覚としてスパース認識パターンを示し, 余剰計算や加速度を除去する機会を提供する。
一 マスクデコーダにおいては、主に前景の物体に注目する一方、初期の画像エンコーダは広い注意幅を示し、背景領域に不要な計算をもたらす。
二 メモリバンクにおいて、各フレーム内のトークンの小さなサブセットのみがメモリの注意に大きく寄与し、正当領域は時間的一貫性を示し、完全な計算を冗長にする。
そこで本研究では,タスク非関連計算を排除しつつ,SAM2がオブジェクト領域に適応的に焦点を合わせ,推論効率を大幅に向上させるEfficient-SAM2を提案する。
具体的には、画像エンコーダに対して、前フレームデコーダからの一貫性と正当性を利用して、背景領域を軽量ショートカットブランチにルーティングするウィンドウレベルの計算割り当て機構である、オブジェクト認識スパースウィンドウルーティング(SWR)を提案する。
さらに,記憶の注意を喚起するために,各フレーム内の有意なメモリトークンのみを計算に参加させることができるオブジェクト認識スパースメモリ検索(SMR)を提案する。
無視可能な追加パラメータと最小限のトレーニングオーバーヘッドにより、Efficient-SAM2はSAM2.1-Lモデルで1.68倍の高速化を実現し、SA-Vテストセットでは1.0%の精度低下しか達成できない。
関連論文リスト
- Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。
本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。
我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文 参考訳(メタデータ) (2025-12-01T15:15:16Z) - Distractor-Aware Memory-Based Visual Object Tracking [17.945503249662675]
本稿では,SAM2のイントロスペクションに基づくメモリモジュールとイントロスペクション・ベースの管理手法を提案する。
本設計は, 物体閉塞後のトラクションドリフトを効果的に低減し, 再検出能力を向上させる。
13のベンチマークで、DAM4SAMはSAM2.1より優れており、10に新しい最先端結果が設定されている。
論文 参考訳(メタデータ) (2025-09-17T09:54:27Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration [6.515075311704396]
Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-03-14T09:07:34Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。