Fugu-MT 論文翻訳(概要): CAR-SAM: Cross-Attention Reconstruction for Post-Training Quantization of the Segment Anything Model

論文の概要: CAR-SAM: Cross-Attention Reconstruction for Post-Training Quantization of the Segment Anything Model

arxiv url: http://arxiv.org/abs/2605.16901v1
Date: Sat, 16 May 2026 09:25:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:47.226926
Title: CAR-SAM: Cross-Attention Reconstruction for Post-Training Quantization of the Segment Anything Model
Title（参考訳）: CAR-SAM:Segment Anything Modelのトレーニング後量子化のためのクロスアテンション再構成
Authors: Houji Wen, Jiangyong Yu, Jun Li, Dawei Yang,
Abstract要約: Segment Anything Models (SAM) はコンピュータビジョンにおいて普遍的なイメージセグメンテーションに広く使われている。リソース制約のあるデバイスにそれらをデプロイするのは、高い計算量とメモリ要求のために難しい。本稿では,SAM に適した統一量子化フレームワーク CAR-SAM を提案する。 CAR-SAM は SAM-B と SAM-L でそれぞれ 14.6% と 6.6% の精度で SAM モデルを 4-bit の精度で量子化することを示した。
参考スコア（独自算出の注目度）: 11.97478239633903
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Segment Anything Models (SAMs) are extensively used in computer vision for universal image segmentation, but deploying them on resource-constrained devices is challenging due to their high computational and memory demands. Post-Training Quantization (PTQ) is a widely used technique for model compression and acceleration. However, existing PTQ methods fail to consider the cross-attention architecture in the SAM decoder. This degradation primarily stems from the unique challenges posed by SAMs: (1) Attention dissipation, where the attention information in the decoder, which is crucial for representing segmentation masks, collapses into a diffuse and non-semantic form under low-bit quantization; and (2) Reconstruction oscillation, where bidirectional coupling within the two-way transformer introduces cross-branch error interference and destabilizes convergence. To tackle these issues, we propose CAR-SAM, a unified quantization framework tailored for SAMs. Firstly, to mitigate attention dissipation, we introduce MatMul-Aware Compensation (MAC) mechanism that transfers activation-induced quantization errors from MatMul to preceding linear weights. Secondly, to mitigate oscillation in decoder optimization, we develop a Joint Cross-Attention Reconstruction (JCAR) strategy that jointly reconstructs coupled attention branches, suppressing oscillatory behavior and promoting stable convergence. Extensive experiments show that CAR-SAM robustly quantizes SAM models down to 4-bit precision, surpassing existing methods by 14.6% and 6.6% mAP on SAM-B and SAM-L respectively.
Abstract（参考訳）: Segment Anything Models (SAM) は、コンピュータビジョンにおいて、普遍的なイメージセグメンテーションのために広く使われているが、リソース制約のあるデバイスにそれらをデプロイすることは、高い計算量とメモリ要求のために困難である。 PTQ(Post-Training Quantization)は、モデル圧縮とアクセラレーションに広く用いられている技術である。しかし、既存のPTQメソッドはSAMデコーダのクロスアテンションアーキテクチャを考慮できない。この劣化は,(1)セグメンテーションマスクの表現に不可欠なデコーダの注意情報を低ビット量子化下で拡散・非意味形式に分解する注意散逸,(2)双方向トランスフォーマー内の双方向結合がクロスブランチエラー干渉を導入して収束を不安定化する再構成発振など,SAMsの固有の課題に起因している。これらの課題に対処するために,SAM に適した統一量子化フレームワーク CAR-SAM を提案する。まず、注意散逸を軽減するために、活性化誘起量子化誤差をMatchMulから以前の線形重みに転送するMAC(MatMul-Aware Compensation)機構を導入する。次に、デコーダ最適化における振動を軽減するために、結合した注意枝を共同で再構築し、振動挙動を抑え、安定した収束を促進するJCAR(Joint Cross-Attention Reconstruction)戦略を開発した。大規模な実験により、CAR-SAMはSAMモデルを4ビットの精度で頑健に定量化し、SAM-BとSAM-Lで既存の手法を14.6%、MAPを6.6%上回った。

関連論文リスト

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models [57.674757786328236]
StructSAMは、Segment Anything Model(SAM)に適した解像度保存型マージアンマージフレームワークであるまた,StructSAMはエンコーダFLOPsを25～30%削減し,mIoU/Diceに少量の低下を認めた。また、スペクトルグラフ粗大化ビューでは、スコア誘導マージにより、ランダムまたはウィンドウ制限ベースラインと比較して、ラプラシアスペクトル歪みが有界となることを示す。
論文参考訳（メタデータ） (2026-03-07T18:30:58Z)
Apriel-H1: Towards Efficient Enterprise Reasoning Models [6.630534140883356]
ハイブリッドLLMのApriel-H1ファミリーは、15Bモデルサイズでの効率的な推論のためにトランスフォーマーアテンションとSSMシークエンスミキサーを組み合わせた。 SSM-to-MHA比の異なるApriel-H1-15B-Thinkerの蒸留後変種を複数リリースし、より多くのマンバ層がMHAに置き換わるにつれて、推論性能が劣化するかを分析した。
論文参考訳（メタデータ） (2025-11-04T15:17:43Z)
Vanish into Thin Air: Cross-prompt Universal Adversarial Attacks for SAM2 [48.71856814549096]
UAP-SAM2は,2つの意味的偏差によって駆動されるSAM2に対する最初のクロスプロンプト的普遍的敵攻撃である。 UAP-SAM2は, 最先端(SOTA)攻撃に対して, 大差で有意に優れていた。
論文参考訳（メタデータ） (2025-10-28T08:59:11Z)
Q-SAM2: Accurate Quantization for Segment Anything Model 2 [19.438737615421598]
効率的なセグメンテーションモデル2(SAM2)のための高精度な低ビット量子化法を提案する。 Q-SAM2は、量子化時の重量分布と活性化分布の特異性に起因する性能劣化に対処する。実験の結果,Q-SAM2は高精度な推論が可能であり,効率は著しく向上した。
論文参考訳（メタデータ） (2025-06-11T14:21:38Z)
Focal-SAM: Focal Sharpness-Aware Minimization for Long-Tailed Classification [113.6840565194525]
実世界のデータセットは長い尾の分布に従うことが多く、尾のクラスへの一般化は困難である。近年,ロスランドスケープを平坦化して一般化を改善するため,シャープネス・アウェア最小化法 (SAM) の長尾変種を利用した手法が提案されている。クラスごとに異なる罰則を割り当てるFocal-SAMを導入し、余分なバックプロパゲーションを伴わずにきめ細かい制御を実現する。
論文参考訳（メタデータ） (2025-05-03T03:01:28Z)
SAQ-SAM: Semantically-Aligned Quantization for Segment Anything Model [9.381558154295012]
本稿では,クリッピング基準として重なり合う注意力を利用した知覚一貫性クリッピングを提案する。また,マスクデコーダのクロスアテンション応答を活用することで,視覚的プロンプトインタラクションを取り入れたPrompt-Aware Reconstructionを提案する。本手法は, セグメンテーションタスクにおいて, ベースラインよりも11.7%高いmAPを実現する。
論文参考訳（メタデータ） (2025-03-09T08:38:32Z)
SAMPa: Sharpness-aware Minimization Parallelized [51.668052890249726]
シャープネス認識(SAM)はニューラルネットワークの一般化を改善することが示されている。 SAMの更新には2つの勾配を瞬時に計算する必要がある。我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。
論文参考訳（メタデータ） (2024-10-14T16:21:23Z)
AM-SAM: Automated Prompting and Mask Calibration for Segment Anything Model [28.343378406337077]
AM-SAMと呼ばれる自動プロンプトとマスクの校正手法を提案する。提案手法は入力画像のプロンプトを自動生成し,早期訓練における人的関与の必要性を解消する。実験の結果,AM-SAMは,人為的および既定のプロンプトの有効性,マッチング,あるいは超越した精度のセグメンテーションを達成できた。
論文参考訳（メタデータ） (2024-10-13T03:47:20Z)
SAM-DiffSR: Structure-Modulated Diffusion Model for Image Super-Resolution [46.85622647257876]
本稿では,SAM-DiffSRモデルを提案する。このモデルでは,ノイズをサンプリングする過程において,SAMからの微細な構造情報を利用することで,推論時に追加の計算コストを伴わずに画像品質を向上させることができる。 DIV2Kデータセット上でPSNRの最大値で既存の拡散法を0.74dB以上越えることにより,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-02-27T01:57:02Z)
Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。 1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文参考訳（メタデータ） (2023-11-27T12:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。