論文の概要: Fast SAM2 with Text-Driven Token Pruning
- arxiv url: http://arxiv.org/abs/2512.21333v1
- Date: Wed, 24 Dec 2025 18:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.852761
- Title: Fast SAM2 with Text-Driven Token Pruning
- Title(参考訳): テキスト駆動型トーケンプルーニングによる高速SAM2
- Authors: Avilasha Mandal, Chaoning Zhang, Fachrina Dewi Puspitasari, Xudong Wang, Jiaquan Zhang, Caiyan Qin, Guoqing Wang, Yang Yang, Heng Tao Shen,
- Abstract要約: Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.8350457627401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model 2 (SAM2), a vision foundation model has significantly advanced in prompt-driven video object segmentation, yet their practical deployment remains limited by the high computational and memory cost of processing dense visual tokens across time. The SAM2 pipelines typically propagate all visual tokens produced by the image encoder through downstream temporal reasoning modules, regardless of their relevance to the target object, resulting in reduced scalability due to quadratic memory attention overhead. In this work, we introduce a text-guided token pruning framework that improves inference efficiency by selectively reducing token density prior to temporal propagation, without modifying the underlying segmentation architecture. Operating after visual encoding and before memory based propagation, our method ranks tokens using a lightweight routing mechanism that integrates local visual context, semantic relevance derived from object-centric textual descriptions (either user-provided or automatically generated), and uncertainty cues that help preserve ambiguous or boundary critical regions. By retaining only the most informative tokens for downstream processing, the proposed approach reduces redundant computation while maintaining segmentation fidelity. Extensive experiments across multiple challenging video segmentation benchmarks demonstrate that post-encoder token pruning provides a practical and effective pathway to efficient, prompt-aware video segmentation, achieving up to 42.50 percent faster inference and 37.41 percent lower GPU memory usage compared to the unpruned baseline SAM2, while preserving competitive J and F performance. These results highlight the potential of early token selection to improve the scalability of transformer-based video segmentation systems for real-time and resource-constrained applications.
- Abstract(参考訳): Segment Anything Model 2 (SAM2) では、視覚基盤モデルはプロンプト駆動によるビデオオブジェクトのセグメンテーションにおいて著しく進歩しているが、その実際の展開は、高計算量および高メモリコストの高精細な視覚トークン処理によって制限されている。
SAM2パイプラインは通常、下流の時間的推論モジュールを通じてイメージエンコーダによって生成された全ての視覚トークンを伝播する。
本研究では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
視覚的エンコーディングとメモリベースの伝搬の後に動作し、局所的な視覚的コンテキスト、オブジェクト中心のテキスト記述(ユーザが提供するか自動生成されるか)から導かれる意味的関連性、曖昧な領域や境界クリティカル領域の保存に役立つ不確実性などを統合する軽量なルーティング機構を用いてトークンをランク付けする。
ダウンストリーム処理において最も情報性の高いトークンのみを保持することにより,セグメント化の忠実さを維持しながら冗長な計算を削減できる。
複数の挑戦的なビデオセグメンテーションベンチマークによる大規模な実験によると、ポストエンコーダトークンのプルーニングは、競争力のあるJとFのパフォーマンスを維持しながら、最大42.50%の高速な推論と37.1%のGPUメモリ使用率を達成する、効果的で効果的なビデオセグメンテーションの経路を提供する。
これらの結果は、リアルタイムおよびリソース制約のあるアプリケーションのためのトランスフォーマーベースのビデオセグメンテーションシステムのスケーラビリティを向上させるために、早期トークン選択の可能性を強調している。
関連論文リスト
- Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。
本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。
我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文 参考訳(メタデータ) (2025-12-01T15:15:16Z) - CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs [29.08277140543501]
視覚的トークン圧縮のための新しいパラダイムであるCORE(Compact Object-centric Representation)を紹介する。
COREは効率的なセグメンテーションデコーダを利用してオブジェクトマスクを生成する。
実験により、COREは固定レート圧縮のための6つの信頼性ベンチマークに対して新しい最先端のベンチマークを確立するだけでなく、適応レート設定において劇的な効率向上を達成することが示された。
論文 参考訳(メタデータ) (2025-11-18T03:02:23Z) - SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。
AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文 参考訳(メタデータ) (2025-10-20T17:35:47Z) - Large Language Model Partitioning for Low-Latency Inference at the Edge [6.019511429258932]
自動回帰に基づく大規模言語モデル(LLM)では、デコーダのみのトランスフォーマーがテキストを1つずつ生成し、トークンは個々のテキスト単位を表す。
この反復的プロセスは、メモリと計算要求を着実に増加させるため、リソース制約のあるエッジ環境における層ベースのパーティショニングは、しばしばメモリ過負荷や高い推論遅延をもたらす。
本稿では,トークン生成時に一定間隔で分割決定を更新するリソース対応トランスフォーマーアーキテクチャ分割アルゴリズムを提案する。
当社のアプローチでは,アテンションヘッドレベルでデコーダを分割し,各アテンションヘッドとキーバリューキャッシュを同時配置し,リソースが密着するたびに動的マイグレーションを可能にする。
論文 参考訳(メタデータ) (2025-05-05T10:16:16Z) - Memory-efficient Streaming VideoLLMs for Real-time Procedural Video Understanding [51.91097761028129]
本稿では,リアルタイム・プロシージャ・ビデオ理解のためのエンドツーエンドフレームワークであるProVideLLMを紹介する。
ProVideLLMは、2種類のトークンを格納するように構成されたマルチモーダルキャッシュを統合する。
ProVideLLMは、これらのトークンをマルチモーダルキャッシュにインターリーブすることで、メモリと計算のサブ線形スケーリングをビデオ長で保証します。
論文 参考訳(メタデータ) (2025-04-10T17:13:08Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。