Fugu-MT 論文翻訳(概要): EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss

論文の概要: EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss

arxiv url: http://arxiv.org/abs/2402.05008v1
Date: Wed, 7 Feb 2024 16:28:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 14:26:24.454359
Title: EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss
Title（参考訳）: EfficientViT-SAM:パフォーマンス損失のない高速化セグメントモデル
Authors: Zhuoyang Zhang, Han Cai, Song Han
Abstract要約: 高速化されたセグメントモデルの新しいファミリーであるEfficientViT-SAMを提案する。トレーニングはSAM-ViT-H画像エンコーダからEfficientViTへの知識蒸留から始まる。 EfficientViTの効率とキャパシティにより、EfficientViT-SAMはSAM-ViT-H上でA100 GPU上で48.9倍のRTスピードアップを提供する。
参考スコア（独自算出の注目度）: 26.33147838820996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present EfficientViT-SAM, a new family of accelerated segment anything models. We retain SAM's lightweight prompt encoder and mask decoder while replacing the heavy image encoder with EfficientViT. For the training, we begin with the knowledge distillation from the SAM-ViT-H image encoder to EfficientViT. Subsequently, we conduct end-to-end training on the SA-1B dataset. Benefiting from EfficientViT's efficiency and capacity, EfficientViT-SAM delivers 48.9x measured TensorRT speedup on A100 GPU over SAM-ViT-H without sacrificing performance. Our code and pre-trained models are released at https://github.com/mit-han-lab/efficientvit.
Abstract（参考訳）: 高速化されたセグメントモデルの新しいファミリーであるEfficientViT-SAMを提案する。我々は、サムの軽量プロンプトエンコーダとマスクデコーダを保持し、重い画像エンコーダを効率良く置き換える。トレーニングはSAM-ViT-H画像エンコーダからEfficientViTへの知識蒸留から始まる。その後、SA-1Bデータセット上でエンドツーエンドのトレーニングを行う。 EfficientViTの効率とキャパシティから恩恵を受け、EfficientViT-SAMはSAM-ViT-H上のA100 GPU上で48.9倍のTensorRTスピードアップを提供する。私たちのコードと事前訓練されたモデルはhttps://github.com/mit-han-lab/efficientvit.comでリリースされます。

関連論文リスト

EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文参考訳（メタデータ） (2025-01-13T12:11:07Z)
TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文参考訳（メタデータ） (2023-12-21T12:26:11Z)
EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM [71.868623296582]
EdgeSAMはSegment Anything Model (SAM)の高速化版である。我々のアプローチは、VTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することである。これは、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種である。
論文参考訳（メタデータ） (2023-12-11T18:59:52Z)
RepViT-SAM: Towards Real-Time Segmenting Anything [71.94042743317937]
Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。 MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。 RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
論文参考訳（メタデータ） (2023-12-10T04:42:56Z)
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。本稿では,軽量なSAMモデルであるEfficientSAMを提案する。我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文参考訳（メタデータ） (2023-12-01T18:31:00Z)
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications [47.177751899636164]
この作業は、重い画像エンコーダを軽量なものに置き換えることで、Segment Anything Model(SAM)をモバイルフレンドリーにすることを目的としている。我々は、重画像エンコーダから軽量画像エンコーダに知識を蒸留し、元のSAMのマスクデコーダと自動的に互換性を持たせる。結果として生じる軽量SAMはMobileSAMと呼ばれ、これは60倍以上小さいが、オリジナルのSAMと同等に動作する。
論文参考訳（メタデータ） (2023-06-25T16:37:25Z)
Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文参考訳（メタデータ） (2022-10-11T06:30:10Z)
Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。 LookSAMはSAMと同じような精度を実現し、非常に高速である。 Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文参考訳（メタデータ） (2022-03-05T11:53:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。