論文の概要: HRSAM: Efficient Interactive Segmentation in High-Resolution Images
- arxiv url: http://arxiv.org/abs/2407.02109v2
- Date: Sat, 23 Nov 2024 01:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:16:52.543750
- Title: HRSAM: Efficient Interactive Segmentation in High-Resolution Images
- Title(参考訳): HRSAM:高解像度画像における効率的なインタラクティブセグメンテーション
- Authors: You Huang, Wenbin Lai, Jiayi Ji, Liujuan Cao, Shengchuan Zhang, Rongrong Ji,
- Abstract要約: Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。
本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
- 参考スコア(独自算出の注目度): 59.537068118473066
- License:
- Abstract: The Segment Anything Model (SAM) has advanced interactive segmentation but is limited by the high computational cost on high-resolution images. This requires downsampling to meet GPU constraints, sacrificing the fine-grained details needed for high-precision interactive segmentation. To address SAM's limitations, we focus on visual length extrapolation and propose a lightweight model named HRSAM. The extrapolation enables HRSAM trained on low resolutions to generalize to high resolutions. We begin by finding the link between the extrapolation and attention scores, which leads us to base HRSAM on Swin attention. We then introduce the Flexible Local Attention (FLA) framework, using CUDA-optimized Efficient Memory Attention to accelerate HRSAM. Within FLA, we implement Flash Swin attention, achieving over a 35% speedup compared to traditional Swin attention, and propose a KV-only padding mechanism to enhance extrapolation. We also develop the Cycle-scan module that uses State Space models to efficiently expand HRSAM's receptive field. We further develop the HRSAM++ within FLA by adding an anchor map, providing multi-scale data augmentation for the extrapolation and a larger receptive field at slight computational cost. Experiments show that, under standard training, HRSAMs surpass the previous SOTA with only 38% of the latency. With SAM-distillation, the extrapolation enables HRSAMs to outperform the teacher model at lower latency. Further finetuning achieves performance significantly exceeding the previous SOTA.
- Abstract(参考訳): Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限されている。
これにより、GPUの制約を満たすためのダウンサンプリングが必要になり、高精度なインタラクティブセグメンテーションに必要な詳細な詳細を犠牲にする。
SAMの限界に対処するため,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
まず、外挿点と注意点の関連を見出すことから始め、スウィンアテンションに基づいてHRSAMをベースとします。
次に、CUDA最適化された効率的なメモリアテンションを用いて、HRSAMを高速化するフレキシブルローカルアテンション(FLA)フレームワークを導入する。
FLA内ではFlash Swinアテンションを実装し,従来のSwinアテンションに比べて35%以上のスピードアップを実現し,外挿性を高めるためにKVのみのパディング機構を提案する。
また、状態空間モデルを用いてHRSAMの受容場を効率的に拡張するCycle-Scanモジュールを開発した。
我々は、FLA内でHRSAM++をさらに発展させ、アンカーマップを追加し、外挿のためのマルチスケールデータ拡張と、若干の計算コストでより大きな受容場を提供する。
標準的なトレーニングでは、HRSAMは38%のレイテンシで以前のSOTAを上回ります。
SAM蒸留により、HRSAMは低レイテンシで教師モデルより優れる。
さらなる微調整により、前のSOTAよりも大幅に性能が向上する。
関連論文リスト
- Efficient Knowledge Distillation of SAM for Medical Image Segmentation [0.04672991859386895]
Segment Anything Model (SAM)はインタラクティブなイメージセグメンテーションの新しい標準を設定し、さまざまなタスクで堅牢なパフォーマンスを提供する。
我々は, エンコーダとデコーダの最適化を, Mean Squared Error (MSE) と Perceptual Loss の組み合わせで組み合わせた新しい知識蒸留手法 KD SAM を提案する。
KD SAMはセグメンテーションの精度と計算効率を効果的にバランスさせ、資源制約のある環境でリアルタイムの医用画像セグメンテーションに適している。
論文 参考訳(メタデータ) (2025-01-28T06:33:30Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - A Federated Learning-Friendly Approach for Parameter-Efficient Fine-Tuning of SAM in 3D Segmentation [5.011091042850546]
医用画像解析に基礎モデルを適用するには、かなりの量のデータでそれらを微調整する必要がある。
このような微調整のためのタスク固有の医療データを中央で収集することは、多くのプライバシー上の懸念を引き起こす。
フェデレーテッド・ラーニング(FL)は、プライベートな分散データをトレーニングするための効果的な手段を提供するが、大規模な基盤モデルをフェデレーテッドする際の通信コストは、すぐに重大なボトルネックとなる可能性がある。
論文 参考訳(メタデータ) (2024-07-31T16:48:06Z) - Asymptotic Unbiased Sample Sampling to Speed Up Sharpness-Aware Minimization [17.670203551488218]
シャープネス認識最小化(AUSAM)を加速する漸近的アンバイアスサンプリングを提案する。
AUSAMはモデルの一般化能力を維持しながら、計算効率を大幅に向上させる。
プラグアンドプレイでアーキテクチャに依存しない手法として、我々のアプローチはSAMを様々なタスクやネットワークで継続的に加速させる。
論文 参考訳(メタデータ) (2024-06-12T08:47:44Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。