論文の概要: Not All NVFP4 QAT Recipes Are Equal: How Architecture and Scale Shape Model Quality for Anomaly Segmentation
- arxiv url: http://arxiv.org/abs/2605.27616v1
- Date: Tue, 26 May 2026 19:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.482218
- Title: Not All NVFP4 QAT Recipes Are Equal: How Architecture and Scale Shape Model Quality for Anomaly Segmentation
- Title(参考訳): NVFP4 QATのすべてのレシピが同等ではない - 異常セグメンテーションのためのアーキテクチャとスケール形状モデルの品質
- Authors: Zijian Du, Oleg Rybakov,
- Abstract要約: リアルタイムの異常セグメンテーションは、高いリコールと効率的な低精度推論を必要とする。
本稿では, モデルアーキテクチャ, モデルスケール, FP4量子化対応トレーニング(QAT)の3方向インタラクションについて, 記憶臨界脳腫瘍セグメンテーションの課題について検討する。
- 参考スコア(独自算出の注目度): 5.36498773947876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time anomaly segmentation demands both high recall and efficient low-precision inference. We study the three-way interaction of model architecture, model scale, and FP4 quantization-aware training (QAT) recipe on a recall-critical brain tumor segmentation task, evaluating multiple architectures, scales, and QAT recipes under a unified protocol. We find that architecture choice has the largest impact on quantization robustness, with attention-based architectures showing remarkable resilience to recipe choice while CNN degrades under gradient-quantizing recipes at larger scales. At low capacity, FP4 can discretize softmax attention, but advanced QAT recipes prevent this collapse. At larger scales, advanced recipes mitigate gradient quantization noise that degrades CNN quality. Five-fold patient-level cross-validation confirms these findings are robust to data partition. Our results show that the Swin Transformer is robust to QAT recipe choice across all scales, making it the recommended architecture for FP4-quantized anomaly segmentation.
- Abstract(参考訳): リアルタイムの異常セグメンテーションは、高いリコールと効率的な低精度推論の両方を要求する。
モデルアーキテクチャ,モデルスケール,FP4量子化対応トレーニング(QAT)の3方向インタラクションを,脳腫瘍セグメンテーションタスク上で検討し,複数のアーキテクチャ,スケール,QATレシピを統一的なプロトコルで評価した。
アーキテクチャ選択は量子化の堅牢性に最も大きな影響を与えており、注意に基づくアーキテクチャはレシピ選択に顕著なレジリエンスを示し、CNNは勾配量子化のレシピを大規模に分解する。
低容量では、FP4はソフトマックスの注意を識別できるが、高度なQATレシピは、この崩壊を防ぐ。
大規模では、高度なレシピはCNNの品質を低下させる勾配量子化ノイズを緩和する。
患者の5倍のクロスバリデーションでは,これらの所見がデータ分割に対して堅牢であることが確認された。
以上の結果から,Swin Transformerは全スケールにわたるQATレシピ選択に対して堅牢であり,FP4量子化異常セグメンテーションのアーキテクチャとして推奨されている。
関連論文リスト
- SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization [19.022444007775896]
NVFP4は、最近、大規模言語モデルの効率的な4ビットマイクロスケーリングフォーマットとして登場した。
既存の方法は、しばしば、柔軟性のないスケールの選択と、量子化と量子化のスケールの併用による、最適以下の性能をもたらす。
NVFP4量子化の精度を向上する新しい学習後量子化フレームワークであるSOAR(Scale Optimization for Accurate Reconstruction)を提案する。
論文 参考訳(メタデータ) (2026-05-12T15:13:18Z) - Quantizing Whisper-small: How design choices affect ASR performance [0.0]
本稿では,Whisper-Small上での学習後量子化の統一的,クロスライブラリな評価について述べる。
この結果から,PTQ法を慎重に選択することで,モデルのサイズや推論コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2025-11-11T10:47:00Z) - GABFusion: Rethinking Feature Fusion for Low-Bit Quantization of Multi-Task Networks [7.087257323517682]
本研究では, グラディエント・アウェア・バランスド・フィーチャー・フュージョン (GABFusion) を提案し, グラディエント・アウェア・バランスド・フィーチャー・フュージョン (GABFusion) を量子化フレンドリーな方法で融合させる。
我々の戦略は、異なるネットワークアーキテクチャとビット幅にわたる様々なQATメソッドを一貫して強化します。
特に、提案されたフレームワークはモジュール化されており、統合が容易で、既存のQAT技術と互換性があり、量子化されたモデルの性能を高めている。
論文 参考訳(メタデータ) (2025-11-08T07:45:21Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction [0.0]
本稿では,新しいアテンションアーキテクチャであるスパースクエリアテンション(SQA)について紹介する。
モデル事前トレーニング、微調整、エンコーダベースのタスクなど、計算バウンドシナリオで最大3倍のスループット向上を実現することができる。
SQAは、近くリリースされるReactive Transformerアーキテクチャの開発において、極めて重要視された。
論文 参考訳(メタデータ) (2025-10-02T09:01:38Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。