論文の概要: V-ABFT: Variance-Based Adaptive Threshold for Fault-Tolerant Matrix Multiplication in Mixed-Precision Deep Learning
- arxiv url: http://arxiv.org/abs/2602.08043v1
- Date: Sun, 08 Feb 2026 16:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.949105
- Title: V-ABFT: Variance-Based Adaptive Threshold for Fault-Tolerant Matrix Multiplication in Mixed-Precision Deep Learning
- Title(参考訳): V-ABFT:混合精度ディープラーニングにおけるフォールトトレラント行列乗算のための可変型適応閾値
- Authors: Yiheng Gao, Qin Hua, Zizhong Chen,
- Abstract要約: V-ABFTは、検証差を直接モデル化することで、より厳密なエラー境界を達成する分散ベースの適応しきい値アルゴリズムである。
V-ABFTは、しきい値と実際のエラーの比率を、FP32/FP64で約7-20times$、BF16で48-158times$に下げる。
- 参考スコア(独自算出の注目度): 2.1424453911169596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithm-Based Fault Tolerance (ABFT) is widely adopted to detect silent data corruptions (SDCs) in matrix multiplication, a cornerstone operation in deep learning systems. However, existing threshold determination methods face critical challenges: analytical bounds are overly conservative, while probabilistic approaches like A-ABFT yield thresholds $160$--$4200\times$ larger than actual rounding errors. We present V-ABFT, a variance-based adaptive threshold algorithm that achieves tighter error bounds by directly modeling the verification difference. By leveraging statistical variance estimation, V-ABFT reduces the threshold-to-actual-error ratio to approximately $7$--$20\times$ for FP32/FP64 and $48$--$158\times$ for BF16, representing a \textbf{6--48$\times$ improvement} over A-ABFT while maintaining zero false positive rate across BF16, FP16, FP32, and FP64 precisions. Furthermore, we demonstrate that for fused-kernel ABFT implementations that verify before output quantization, low-precision GEMM can use FP32-level thresholds ($e_{\max} \approx 10^{-6}$), enabling \textbf{$\sim$1000$\times$ finer detection granularity} compared to offline verification with low-precision output ($e_{\max} \approx 10^{-3}$). We reproduce A-ABFT's experimental setup and validate our implementation against the original paper's results. Our method requires only $O(n)$ complexity using max/min/mean statistics, compared to A-ABFT's $O(pn)$ for finding $p$ largest values. Extensive experiments on synthetic data and real model weights (LLaMA-7B, GPT-2, ViT) demonstrate V-ABFT's effectiveness across diverse distributions. V-ABFT is platform-agnostic and has been integrated into fault-tolerant GEMM implementations on both NPUs and GPUs.
- Abstract(参考訳): アルゴリズムに基づくフォールトトレランス(ABFT)は、ディープラーニングシステムにおいて基礎となる行列乗算におけるサイレントデータ破損(SDC)を検出するために広く採用されている。
しかし、既存のしきい値決定法では、分析的境界は過度に保守的であるのに対し、A-ABFTの収差閾値のような確率論的アプローチは、実際の丸め誤差よりも160$-$4200\times$大きい。
本稿では,検証差を直接モデル化することにより,より厳密な誤差境界を実現する分散適応しきい値アルゴリズムであるV-ABFTを提案する。
統計的分散推定を利用することで、V-ABFTはしきい値と実際のエラーの比率を約7ドルから20ドルに減らし、FP32/FP64とBF16の480ドルから158ドルに減らし、BF16、FP16、FP32、FP64間の偽陽性率をゼロに保ちながら、A-ABFT上の \textbf{6-48$\times$ Improvement} を表す。
さらに,FP32レベルのしきい値(e_{\max} \approx 10^{-6}$)を用いることで,低精度出力(e_{\max} \approx 10^{-3}$)によるオフライン検証と比較して,FP32レベルのしきい値(e_{\max} \approx 10^{-6}$)を実現できることを示す。
我々は,A-ABFTの実験的な設定を再現し,その実装を元の論文の結果に対して検証する。
A-ABFTの$O(pn)$と比較して、最大/最小/平均統計量を用いるとO(n)$の複雑さしか必要としない。
合成データと実モデル重量(LLaMA-7B, GPT-2, ViT)に関する大規模な実験は、様々な分布におけるV-ABFTの有効性を実証している。
V-ABFTはプラットフォームに依存しないため、NPUとGPUの両方でフォールトトレラントなGEMM実装に統合されている。
関連論文リスト
- Closing the Approximation Gap of Partial AUC Optimization: A Tale of Two Formulations [121.39938773554523]
ROC曲線の下の領域(AUC)は、クラス不均衡と決定制約の両方を持つ実世界のシナリオにおける重要な評価指標である。
PAUC最適化の近似ギャップを埋めるために,2つの簡単なインスタンス単位のミニマックス修正を提案する。
得られたアルゴリズムは、サンプルサイズと典型的な一方方向と双方向のPAUCに対して$O(-2/3)$の収束率の線形パーイテレーション計算複雑性を享受する。
論文 参考訳(メタデータ) (2025-12-01T02:52:33Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。
我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。
我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - Theoretical limits of descending $\ell_0$ sparse-regression ML algorithms [0.0]
本研究では,emphmaximum-likelihood (ML)デコーディングの性能解析プログラムを開発した。
ML性能パラメータの鍵となるのは、残留エンフェロ平均二乗誤差(textbfRMSE$)を発見し、いわゆるエンフェロ遷移(PT)現象を示す。
Fl RDTの具体的実装と実用的妥当性は、典型的には、基礎となる数値評価のサイズのセットを実行する能力に依存している。
論文 参考訳(メタデータ) (2024-10-10T06:33:41Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - FKreg: A MATLAB toolbox for fast Multivariate Kernel Regression [5.090316990822874]
非一様FFT(NUFFT)を用いた高速多変量カーネル回帰のための新しいツールボックスを提案する。
NUFFTは$Oleft(N+Mlog M right)$複雑さと精度制御性を備えた$M$グリッドポイントのアルゴリズムを実装している。
帯域幅選択問題は、Fast Monte-Carloを用いて自由度を推定する。
論文 参考訳(メタデータ) (2022-04-16T04:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。