論文の概要: HRSAM: Efficient Interactive Segmentation in High-Resolution Images
- arxiv url: http://arxiv.org/abs/2407.02109v2
- Date: Sat, 23 Nov 2024 01:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:16:52.543750
- Title: HRSAM: Efficient Interactive Segmentation in High-Resolution Images
- Title(参考訳): HRSAM:高解像度画像における効率的なインタラクティブセグメンテーション
- Authors: You Huang, Wenbin Lai, Jiayi Ji, Liujuan Cao, Shengchuan Zhang, Rongrong Ji,
- Abstract要約: Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。
本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
- 参考スコア(独自算出の注目度): 59.537068118473066
- License:
- Abstract: The Segment Anything Model (SAM) has advanced interactive segmentation but is limited by the high computational cost on high-resolution images. This requires downsampling to meet GPU constraints, sacrificing the fine-grained details needed for high-precision interactive segmentation. To address SAM's limitations, we focus on visual length extrapolation and propose a lightweight model named HRSAM. The extrapolation enables HRSAM trained on low resolutions to generalize to high resolutions. We begin by finding the link between the extrapolation and attention scores, which leads us to base HRSAM on Swin attention. We then introduce the Flexible Local Attention (FLA) framework, using CUDA-optimized Efficient Memory Attention to accelerate HRSAM. Within FLA, we implement Flash Swin attention, achieving over a 35% speedup compared to traditional Swin attention, and propose a KV-only padding mechanism to enhance extrapolation. We also develop the Cycle-scan module that uses State Space models to efficiently expand HRSAM's receptive field. We further develop the HRSAM++ within FLA by adding an anchor map, providing multi-scale data augmentation for the extrapolation and a larger receptive field at slight computational cost. Experiments show that, under standard training, HRSAMs surpass the previous SOTA with only 38% of the latency. With SAM-distillation, the extrapolation enables HRSAMs to outperform the teacher model at lower latency. Further finetuning achieves performance significantly exceeding the previous SOTA.
- Abstract(参考訳): Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限されている。
これにより、GPUの制約を満たすためのダウンサンプリングが必要になり、高精度なインタラクティブセグメンテーションに必要な詳細な詳細を犠牲にする。
SAMの限界に対処するため,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
まず、外挿点と注意点の関連を見出すことから始め、スウィンアテンションに基づいてHRSAMをベースとします。
次に、CUDA最適化された効率的なメモリアテンションを用いて、HRSAMを高速化するフレキシブルローカルアテンション(FLA)フレームワークを導入する。
FLA内ではFlash Swinアテンションを実装し,従来のSwinアテンションに比べて35%以上のスピードアップを実現し,外挿性を高めるためにKVのみのパディング機構を提案する。
また、状態空間モデルを用いてHRSAMの受容場を効率的に拡張するCycle-Scanモジュールを開発した。
我々は、FLA内でHRSAM++をさらに発展させ、アンカーマップを追加し、外挿のためのマルチスケールデータ拡張と、若干の計算コストでより大きな受容場を提供する。
標準的なトレーニングでは、HRSAMは38%のレイテンシで以前のSOTAを上回ります。
SAM蒸留により、HRSAMは低レイテンシで教師モデルより優れる。
さらなる微調整により、前のSOTAよりも大幅に性能が向上する。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - A Federated Learning-Friendly Approach for Parameter-Efficient Fine-Tuning of SAM in 3D Segmentation [5.011091042850546]
医用画像解析に基礎モデルを適用するには、かなりの量のデータでそれらを微調整する必要がある。
このような微調整のためのタスク固有の医療データを中央で収集することは、多くのプライバシー上の懸念を引き起こす。
フェデレーテッド・ラーニング(FL)は、プライベートな分散データをトレーニングするための効果的な手段を提供するが、大規模な基盤モデルをフェデレーテッドする際の通信コストは、すぐに重大なボトルネックとなる可能性がある。
論文 参考訳(メタデータ) (2024-07-31T16:48:06Z) - Asymptotic Unbiased Sample Sampling to Speed Up Sharpness-Aware Minimization [17.670203551488218]
シャープネス認識最小化(AUSAM)を加速する漸近的アンバイアスサンプリングを提案する。
AUSAMはモデルの一般化能力を維持しながら、計算効率を大幅に向上させる。
プラグアンドプレイでアーキテクチャに依存しない手法として、我々のアプローチはSAMを様々なタスクやネットワークで継続的に加速させる。
論文 参考訳(メタデータ) (2024-06-12T08:47:44Z) - Momentum-SAM: Sharpness Aware Minimization without Computational
Overhead [0.6577148087211809]
本稿では,蓄積された運動量ベクトルの方向にパラメータを摂動させ,計算オーバーヘッドやメモリ要求を伴わずに低シャープ性を実現するMomentum-SAMを提案する。
我々は、MSAMを詳細に評価し、NAG、SAM、MSAMの分離可能なメカニズムの学習最適化と一般化に関する知見を明らかにする。
論文 参考訳(メタデータ) (2024-01-22T15:19:18Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。