論文の概要: StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models
- arxiv url: http://arxiv.org/abs/2603.07307v1
- Date: Sat, 07 Mar 2026 18:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.219607
- Title: StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models
- Title(参考訳): StructSAM:セグメンテーションモデルのための構造とスペクトル保存トークンマージ
- Authors: Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert,
- Abstract要約: StructSAMは、Segment Anything Model(SAM)に適した解像度保存型マージアンマージフレームワークである
また,StructSAMはエンコーダFLOPsを25~30%削減し,mIoU/Diceに少量の低下を認めた。
また、スペクトルグラフ粗大化ビューでは、スコア誘導マージにより、ランダムまたはウィンドウ制限ベースラインと比較して、ラプラシアスペクトル歪みが有界となることを示す。
- 参考スコア(独自算出の注目度): 57.674757786328236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent token merging techniques for Vision Transformers (ViTs) provide substantial speedups by reducing the number of tokens processed by self-attention, often without retraining. However, their direct application to the Segment Anything Model (SAM) family is nontrivial: SAM's image encoder mixes windowed and global attention, and its mask decoder relies on dense, prompt-conditioned features for precise boundary prediction. We systematically evaluate representative token-merging methods on SAM and Medical SAM in a strict off-the-shelf setting, and find that existing destination-selection heuristics can erode boundaries and leak prompt information as merge rates increase. We propose \textbf{StructSAM}, a resolution-preserving merge-unmerge framework tailored to SAM. StructSAM computes a lightweight token-energy score from first-order feature gradients, uses grid-based flatness screening to protect boundary and prompt regions, and merges tokens within flat areas toward low-energy destinations with explicit token recovery. We further provide a spectral graph coarsening view showing that score-guided merging yields bounded Laplacian spectral distortion compared to random or window-restricted baselines. Across eight natural and medical benchmarks, StructSAM reduces encoder FLOPs by 25-30\% (up to 40\%+ with prompt-aware merging) with minor drops in mIoU/Dice, consistently outperforming ToMe, PiToMe, ToMeSD, VidToMe, and ALGM at the same compute.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)の最近のトークンマージ技術は、しばしば再トレーニングすることなく、自己アテンションによって処理されるトークンの数を減らし、相当なスピードアップを提供する。
しかし、Segment Anything Model (SAM) への直接適用は簡単ではない:SAM の画像エンコーダはウィンドウとグローバルな注意を混合し、マスクデコーダは厳密で迅速な条件付き特徴に依存して正確な境界予測を行う。
SAMとMedical SAMのトークンマージ手法を厳密なオフザシェルフ設定で体系的に評価し,既存の目的地選択ヒューリスティックスがマージ率の増加とともに境界線を逸脱し,プロンプト情報を漏らす可能性があることを発見した。
本稿では,SAM に合わせた解像度保存型マージアンマージフレームワークである \textbf{StructSAM} を提案する。
StructSAMは、一階特徴勾配からの軽量なトークンエネルギースコアを計算し、グリッドベースのフラットネススクリーニングを使用して境界とプロンプト領域を保護し、明示的なトークン回復を伴う低エネルギー目的地に向けてフラットエリア内のトークンをマージする。
さらに、スコア誘導マージによるスペクトル歪みは、ランダムまたはウィンドウ制限ベースラインと比較して、ラプラシアスペクトル歪みが有界であることを示すスペクトルグラフ粗大化ビューを提供する。
8つの自然と医療のベンチマークで、StructSAMはエンコーダFLOPを25~30\%(最大40\%以上のプロンプト対応マージ)に減らし、mIoU/Diceをわずかに減らし、ToMe、PiToMe、ToMeSD、VidToMe、ALGMを一貫して上回っている。
関連論文リスト
- A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification [2.0069888187253615]
生産LLMシステムは、安全と他の分類の重いステップのために、しばしば別々のモデルに依存している。
代わりに、私たちはLLMによって既に支払われた計算を再利用し、隠れた状態の軽量プローブを訓練し、生成に使用する同じ前方パスでラベルを予測する。
論文 参考訳(メタデータ) (2026-01-19T18:40:29Z) - Granular Computing-driven SAM: From Coarse-to-Fine Guidance for Prompt-Free Segmentation [17.190865623538212]
グラニュラーコンピューティングをモチベーションとした粗大なフレームワークであるグラニュラーコンピューティング駆動SAM(Grc-SAM)を紹介する。
まず、粗いステージが特徴から高応答領域を適応的に抽出し、精密な前景の局所化を実現する。
第2に、詳細なモデリングを強化するために、局所的なスウィンスタイルの細かな注意を伴って、より微細なパッチパーティショニングを適用する。
第3に、洗練されたマスクはSAMデコーダの遅延プロンプト埋め込みとしてエンコードされ、手作りプロンプトを自動推論プロセスに置き換える。
論文 参考訳(メタデータ) (2025-11-24T12:55:02Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。
具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。
ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-02-10T18:33:15Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - DeSAM: Decoupled Segment Anything Model for Generalizable Medical Image Segmentation [22.974876391669685]
Segment Anything Model (SAM) は、医用画像セグメンテーションのクロスドメインロバスト性を改善する可能性を示している。
SAMは手動でトリガーする時よりも、自動セグメンテーションのシナリオで大幅にパフォーマンスが低下する。
Decoupled SAMはSAMのマスクデコーダを2つの新しいモジュールを導入して変更する。
論文 参考訳(メタデータ) (2023-06-01T09:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。