Fugu-MT 論文翻訳(概要): SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration

論文の概要: SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration

arxiv url: http://arxiv.org/abs/2403.09195v1
Date: Thu, 14 Mar 2024 09:07:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 21:16:56.395579
Title: SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration
Title（参考訳）: SAM-Lightening:30倍の加速を実現するために、フラッシュを拡張した軽量セグメンテーションモデル
Authors: Yanfei Songa, Bangzheng Pua, Peng Wanga, Hongxu Jiang, Dong Donga, Yiqing Shen,
Abstract要約: Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。 COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
参考スコア（独自算出の注目度）: 3.3744656921839757
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Segment Anything Model (SAM) has garnered significant attention in segmentation tasks due to their zero-shot generalization ability. However, a broader application of SAMs to real-world practice has been restricted by their low inference speed and high computational memory demands, which mainly stem from the attention mechanism. Existing work concentrated on optimizing the encoder, yet has not adequately addressed the inefficiency of the attention mechanism itself, even when distilled to a smaller model, which thus leaves space for further improvement. In response, we introduce SAM-Lightening, a variant of SAM, that features a re-engineered attention mechanism, termed Dilated Flash Attention. It not only facilitates higher parallelism, enhancing processing efficiency but also retains compatibility with the existing FlashAttention. Correspondingly, we propose a progressive distillation to enable an efficient knowledge transfer from the vanilla SAM without costly training from scratch. Experiments on COCO and LVIS reveal that SAM-Lightening significantly outperforms the state-of-the-art methods in both run-time efficiency and segmentation accuracy. Specifically, it can achieve an inference speed of 7 milliseconds (ms) per image, for images of size 1024*1024 pixels, which is 30.1 times faster than the vanilla SAM and 2.1 times than the state-of-the-art. Moreover, it takes only 244MB memory, which is 3.5\% of the vanilla SAM. The code and weights are available at https://anonymous.4open.science/r/SAM-LIGHTENING-BC25/.
Abstract（参考訳）: Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。しかし、SAMの現実の実践への広範な応用は、その低推論速度と、主に注意機構に由来する高い計算メモリ要求によって制限されている。既存の作業はエンコーダの最適化に集中しているが、小さいモデルに蒸留してもアテンション機構自体の非効率性には十分対応していない。これに対し、SAMの亜種であるSAM-Lighteningを導入し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴とする。並列性が向上し、処理効率が向上するだけでなく、既存のFlashAttentionとの互換性も維持される。そこで本研究では,バニラSAMからの効率的な知識伝達を,スクラッチからコストのかかる訓練を伴わずに行うための,プログレッシブ蒸留法を提案する。 COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法を著しく上回っていることが明らかとなった。具体的には、バニラSAMの30.1倍、最先端の2.1倍の1024*1024ピクセルのイメージに対して、画像当たり7ミリ秒(ms)の推論速度を達成することができる。さらに、バニラSAMの3.5倍の244MBのメモリしか必要としない。コードとウェイトはhttps://anonymous.4open.science/r/SAM-LIGHTENING-BC25/で公開されている。

関連論文リスト

EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文参考訳（メタデータ） (2025-01-13T12:11:07Z)
Lite-SAM Is Actually What You Need for Segment Everything [4.696541976769272]
Lite-SAMはSegEveryタスクの効率的なエンドツーエンドソリューションである。 Lite-SAMは4つの主要コンポーネントで構成されている: 合理化されたCNN-Transformerハイブリッドエンコーダ(LiteViT)、自動プロンプトプロポーザルネットワーク(AutoPPN)。
論文参考訳（メタデータ） (2024-07-12T03:28:46Z)
HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文参考訳（メタデータ） (2024-07-02T09:51:56Z)
FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images [7.2993352400518035]
NVIDIA A100 GPU上の128*128*128の3Dボリューム画像に対して,SAM推論を8ミリ秒に高速化するFastSAM3Dを提案する。 FastSAM3Dは2D SAMと8.75倍の527.38倍で、同じボリュームの3D SAMは性能が著しく低下しない。
論文参考訳（メタデータ） (2024-03-14T19:29:44Z)
TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文参考訳（メタデータ） (2023-12-21T12:26:11Z)
EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM [71.868623296582]
EdgeSAMはSegment Anything Model (SAM)の高速化版である。我々のアプローチは、VTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することである。これは、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種である。
論文参考訳（メタデータ） (2023-12-11T18:59:52Z)
Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。 1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文参考訳（メタデータ） (2023-11-27T12:51:42Z)
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications [47.177751899636164]
この作業は、重い画像エンコーダを軽量なものに置き換えることで、Segment Anything Model(SAM)をモバイルフレンドリーにすることを目的としている。我々は、重画像エンコーダから軽量画像エンコーダに知識を蒸留し、元のSAMのマスクデコーダと自動的に互換性を持たせる。結果として生じる軽量SAMはMobileSAMと呼ばれ、これは60倍以上小さいが、オリジナルのSAMと同等に動作する。
論文参考訳（メタデータ） (2023-06-25T16:37:25Z)
Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。 LookSAMはSAMと同じような精度を実現し、非常に高速である。 Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文参考訳（メタデータ） (2022-03-05T11:53:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。