論文の概要: HRSAM: Efficiently Segment Anything in High-Resolution Images
- arxiv url: http://arxiv.org/abs/2407.02109v1
- Date: Tue, 2 Jul 2024 09:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:55:01.134211
- Title: HRSAM: Efficiently Segment Anything in High-Resolution Images
- Title(参考訳): HRSAM:高解像度画像の効率的なセグメンテーション
- Authors: You Huang, Wenbin Lai, Jiayi Ji, Liujuan Cao, Shengchuan Zhang, Rongrong Ji,
- Abstract要約: 本稿では,Flash Attentionを統合し,Plain,Shifted,新たに提案されたCycle-Scan Windowを取り入れたHRSAMを提案する。
サイクルスキャンウィンドウアテンションは、計算オーバーヘッドを最小限に抑えるため、最近開発されたステートスペースモデル(SSM)を採用している。
高精度セグメンテーションデータセットHQSeg44KとDAVISの実験は、SAM蒸留HRSAMモデルが教師モデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 59.537068118473066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model (SAM) has significantly advanced interactive segmentation but struggles with high-resolution images crucial for high-precision segmentation. This is primarily due to the quadratic space complexity of SAM-implemented attention and the length extrapolation issue in common global attention. This study proposes HRSAM that integrates Flash Attention and incorporates Plain, Shifted and newly proposed Cycle-scan Window (PSCWin) attention to address these issues. The shifted window attention is redesigned with padding to maintain consistent window sizes, enabling effective length extrapolation. The cycle-scan window attention adopts the recently developed State Space Models (SSMs) to ensure global information exchange with minimal computational overhead. Such window-based attention allows HRSAM to perform effective attention computations on scaled input images while maintaining low latency. Moreover, we further propose HRSAM++ that additionally employs a multi-scale strategy to enhance HRSAM's performance. The experiments on the high-precision segmentation datasets HQSeg44K and DAVIS show that high-resolution inputs enable the SAM-distilled HRSAM models to outperform the teacher model while maintaining lower latency. Compared to the SOTAs, HRSAM achieves a 1.56 improvement in interactive segmentation's NoC95 metric with only 31% of the latency. HRSAM++ further enhances the performance, achieving a 1.63 improvement in NoC95 with just 38% of the latency.
- Abstract(参考訳): Segment Anything Model (SAM) はインタラクティブセグメンテーションが大幅に進歩しているが、高精度セグメンテーションに欠かせない高解像度画像に苦慮している。
これは、SAMで実装された注意の2次空間の複雑さと、一般的なグローバルな注意における長さ外挿の問題が原因である。
本稿では,Flash Attentionを統合し,Plain,Shifted,新たに提案されたCycle-Scan Window (PSCWin) を取り入れたHRSAMを提案する。
シフトしたウィンドウの注意は、一貫したウィンドウサイズを維持するためにパディングで再設計され、有効長さの補間を可能にする。
サイクルスキャンウィンドウアテンションは、計算オーバーヘッドを最小限に抑えるため、最近開発されたステートスペースモデル(SSM)を採用している。
このようなウィンドウベースのアテンションにより、HRSAMは低レイテンシを維持しながら、スケールした入力画像に対して効果的なアテンション計算を行うことができる。
さらに,HRSAMの性能向上のためのマルチスケール戦略も導入したHRSAM++を提案する。
高精度セグメンテーションデータセットHQSeg44KとDAVISの実験は、SAM蒸留HRSAMモデルが低レイテンシを維持しながら教師モデルより優れていることを示す。
SOTAと比較すると、HRSAMはインタラクティブセグメンテーションのNoC95メトリックをわずか31%で1.56改善している。
HRSAM++はパフォーマンスをさらに向上し、NoC95で1.63の改善を実現した。
関連論文リスト
- FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration [6.515075311704396]
Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-03-14T09:07:34Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。