論文の概要: Q-SAM2: Accurate Quantization for Segment Anything Model 2
- arxiv url: http://arxiv.org/abs/2506.09782v1
- Date: Wed, 11 Jun 2025 14:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.046324
- Title: Q-SAM2: Accurate Quantization for Segment Anything Model 2
- Title(参考訳): Q-SAM2:Segment Anything Model 2の正確な量子化
- Authors: Nicola Farronato, Florian Scheidegger, Mattia Rigotti, Cristiano Malossi, Michele Magno, Haotong Qin,
- Abstract要約: 効率的なセグメンテーションモデル2(SAM2)のための高精度な低ビット量子化法を提案する。
Q-SAM2は、量子化時の重量分布と活性化分布の特異性に起因する性能劣化に対処する。
実験の結果,Q-SAM2は高精度な推論が可能であり,効率は著しく向上した。
- 参考スコア(独自算出の注目度): 19.438737615421598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model 2 (SAM2) has gained significant attention as a foundational approach for promptable image and video segmentation. However, its expensive computational and memory consumption poses a severe challenge for its application in resource-constrained scenarios. In this paper, we propose an accurate low-bit quantization method for efficient SAM2, termed Q-SAM2. To address the performance degradation caused by the singularities in weight and activation distributions during quantization, Q-SAM2 introduces two novel technical contributions. We first introduce a linear layer calibration method for low-bit initialization of SAM2, which minimizes the Frobenius norm over a small image batch to reposition weight distributions for improved quantization. We then propose a Quantization-Aware Training (QAT) pipeline that applies clipping to suppress outliers and allows the network to adapt to quantization thresholds during training. Our comprehensive experiments demonstrate that Q-SAM2 allows for highly accurate inference while substantially improving efficiency. Both quantitative and visual results show that our Q-SAM2 surpasses existing state-of-the-art general quantization schemes, especially for ultra-low 2-bit quantization. While designed for quantization-aware training, our proposed calibration technique also proves effective in post-training quantization, achieving up to a 66% mIoU accuracy improvement over non-calibrated models.
- Abstract(参考訳): Segment Anything Model 2 (SAM2) は、プロンプト可能な画像とビデオのセグメンテーションの基礎的アプローチとして注目されている。
しかし、その高価な計算とメモリ消費は、リソース制約のあるシナリオにおけるその応用に深刻な課題をもたらす。
本稿では,Q-SAM2と呼ばれる効率のよいSAM2の高精度な低ビット量子化法を提案する。
量子化時の重量分布と活性化分布の特異性に起因する性能劣化に対処するため、Q-SAM2は2つの新しい技術貢献を紹介する。
我々はまず,SAM2の低ビット初期化のための線形層校正法を導入し,Frobeniusノルムを小さな画像バッチ上で最小化し,重み分布を再現して量子化を改良した。
次に、外れ値の抑制にクリッピングを適用し、トレーニング中にネットワークが量子化閾値に適応できるようにする量子化対応訓練(QAT)パイプラインを提案する。
包括的実験により,Q-SAM2は高精度な推論が可能であり,効率は著しく向上した。
定量的および視覚的な結果から、我々のQ-SAM2は、特に超低2ビット量子化において、既存の最先端の一般化量子化スキームを超越していることが分かる。
量子化学習用に設計されているが,提案手法は,非校正モデルに対して最大66% mIoUの精度向上を達成し,学習後の量子化に有効であることを示す。
関連論文リスト
- Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
LLaMA 7B と 13B のベンチマーク実験により,ApiQ の精度劣化をそれぞれ 10.85% と 7.54% 削減できることを示した。
論文 参考訳(メタデータ) (2025-04-14T19:31:21Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [37.007621357142725]
量子化は、推論を加速し、大きな言語モデルのメモリ消費を減らすために、実質的に採用されている。
本稿では、投機的復号化のための2つの相補的量子化スキームをシームレスに統合するQSPECと呼ばれる新しい量子化パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。