論文の概要: SparseSAM: Structured Sparsification of Activations in Segment Anything Models
- arxiv url: http://arxiv.org/abs/2605.17633v1
- Date: Sun, 17 May 2026 19:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.238388
- Title: SparseSAM: Structured Sparsification of Activations in Segment Anything Models
- Title(参考訳): SparseSAM:セグメンテーションモデルにおけるアクティベーションの構造化スカラー化
- Authors: Hoai-Chau Tran, Chi H. Nguyen, Duy M. H. Nguyen, Mathias Niepert, Fan Lai, Khoa D. Doan,
- Abstract要約: Segment Anything Model (SAM)は強力なオープン語彙セグメンテーションを実現するが、ViTベースの画像エンコーダは遅延推論とメモリを支配している。
SparseSAMは,トークンの識別を保ちながら注意と層を協調的に加速する訓練不要のスペーシフィケーションフレームワークである。
4つのセグメンテーションベンチマークで、SparseSAMは密度が0.004 mIoU、0.3が0.021 mIoU、精度が2.10倍、トークンマージの進歩が2.10倍、推論が2.8倍、メモリが2.8倍である。
- 参考スコア(独自算出の注目度): 26.589924688727795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model (SAM) achieves strong open-vocabulary segmentation, but its ViT-based image encoders dominate inference latency and memory. Existing activation compression methods, such as token merging, reduce the token length to process, yet introduce non-trivial runtime overhead and encounter catastrophic quality drop under high compression. Other methods applying Sparse Attention focus on attention alone, leaving the MLP fully dense and capping achievable speedup. We propose SparseSAM, a (i) training-free structured sparsification framework that jointly accelerates attention and MLP layers while preserving token identity. SparseSAM introduces (ii) Stripe-Sort Attention, which uses a deterministic Z-order permutation to transform dense attention into static hardware-friendly sparse patterns, eliminating dynamic masking overhead. SparseSAM further introduces a (iii) Residual-Consistency MLP that routes only informative tokens through the MLP while propagating remaining tokens through the residual pathway. Across four segmentation benchmarks, SparseSAM loses only 0.004 mIoU at a 0.4 density and 0.021 mIoU at 0.3, a 2.10x reduction in accuracy loss versus token merging advances, while achieving 2x faster inference and 2.8x memory reduction.
- Abstract(参考訳): Segment Anything Model (SAM)は強力なオープン語彙セグメンテーションを実現するが、ViTベースの画像エンコーダは推論遅延とメモリを支配している。
トークンマージなどの既存のアクティベーション圧縮手法は、トークンの処理時間を削減するが、非自明なランタイムオーバーヘッドを導入し、高い圧縮下で破滅的な品質低下に遭遇する。
スパース注意を適用した他の方法は注意のみに焦点をあて、MLPは完全に密集し、達成可能なスピードアップを達成した。
我々はSparseSAM, aを提案する。
i) トークンの同一性を維持しつつ, 注意層とMLP層を協調的に促進する訓練不要な構造化スペーサー化フレームワーク。
SparseSAMが紹介
(ii)Stripe-Sort Attentionは、決定論的Zオーダーの置換を用いて、集中した注意を静的なハードウェアフレンドリーなスパースパターンに変換し、動的なマスキングオーバーヘッドをなくす。
SparseSAMがさらにaを導入
三 残留経路を介して残ったトークンを伝播しながら、MLPを介して情報トークンのみを経路する残留一貫性MLP。
4つのセグメンテーションベンチマークで、SparseSAMは0.004 mIoU、0.3で0.021 mIoU、0.3で0.021 mIoUしか失っていない。
関連論文リスト
- LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models [49.93891888238178]
ブロックワイド拡散言語モデル(DLM)は任意の順序で複数のトークンを生成し、自動回帰復号パイプラインに代わる有望な代替手段を提供する。
異なるクエリが異なるプレフィックス位置を選択する場合、KVインフレーション問題により、DLM上では裸のスパースアテンションが失敗する。
キャッシュされたプレフィックスアテンション結果を安定したトークンに再利用し、アクティブトークンのみにスパースアテンションを適用するLOSA(Locality-aware Sparse Attention)を提案する。
論文 参考訳(メタデータ) (2026-04-13T20:53:51Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models [57.674757786328236]
StructSAMは、Segment Anything Model(SAM)に適した解像度保存型マージアンマージフレームワークである
また,StructSAMはエンコーダFLOPsを25~30%削減し,mIoU/Diceに少量の低下を認めた。
また、スペクトルグラフ粗大化ビューでは、スコア誘導マージにより、ランダムまたはウィンドウ制限ベースラインと比較して、ラプラシアスペクトル歪みが有界となることを示す。
論文 参考訳(メタデータ) (2026-03-07T18:30:58Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Sequential Token Merging: Revisiting Hidden States [29.89737086314315]
Vision Mambas (ViMs) は準四面体複雑性で顕著な成功を収めるが、その効率は画像解像度を伴う二次トークンスケーリングによって制限されている。
本研究では,(1)対称な空間アグリゲーションを通した逐次的依存関係を維持するために,(2)クラストークンの周辺に隠れた状態を安定化するための隠れ状態保護を特徴とするシーケンシャルトークンマージ(STM)を提案する。
本手法は,状態空間モデル力学の新しい知見を提供しながら,最小限の複雑さで最先端の効率を実現する。
論文 参考訳(メタデータ) (2025-09-19T14:45:01Z) - TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill and Decode Inference [48.40143137402824]
MLA(Multi-Head Latent Attention)は、キー値の状態を低ランクの潜在ベクトルに圧縮し、このベクトルだけをキャッシュしてメモリを減少させる。
しかし、テンソル並列性(TP)では、アテンションヘッドは複数のデバイスにまたがって計算され、各デバイスはフルキャッシュをロードしなければならない。
本稿では,潜在表現と各頭部の入力次元をデバイス間で分割し,シャード毎に独立して注目を行い,結果を全再現と組み合わせる方式であるTPLAを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:25:40Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - TriMLP: Revenge of a MLP-like Architecture in Sequential Recommendation [23.32537260687907]
本稿では,TriMLPという逐次レコメンデーションのためのシーケンシャルなアーキテクチャと,クロストークン通信のための新しい三角形ミキサーを提案する。
三角ミキサーの設計において,基本行列乗算としてのクロストケン操作のイナシイを単純化し,重み行列の下方三角形ニューロンを落として,反時間次接続を将来のトークンからブロックする。
論文 参考訳(メタデータ) (2023-05-24T03:32:31Z) - Token Sparsification for Faster Medical Image Segmentation [37.25161294917211]
セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。
STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。
MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
論文 参考訳(メタデータ) (2023-03-11T23:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。