論文の概要: Custom Algorithm-based Fault Tolerance for Attention Layers in Transformers
- arxiv url: http://arxiv.org/abs/2507.16676v1
- Date: Tue, 22 Jul 2025 15:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.171472
- Title: Custom Algorithm-based Fault Tolerance for Attention Layers in Transformers
- Title(参考訳): 変圧器のアテンション層に対するカスタムアルゴリズムによるフォールトトレランス
- Authors: Vasileios Titopoulos, Kosmas Alexandridis, Giorgos Dimitrakopoulos,
- Abstract要約: トランスフォーマーと大規模言語モデル(LLM)は、多数のAIアプリケーションを変換し、特別なハードウェアアクセラレーターの必要性を高めている。
これらのアクセラレーターの大きな課題は、ランダムなハードウェア故障によるエラーを効率的に検出することである。
従来のアルゴリズムベースのフォールトトレランス(ABFT)技術は、個々の行列乗法を検証するが、完全な注意機構を扱うには不十分である。
本研究は,注目層のクエリ,キー,値行列の3つの行列全体のオンライン正規化を,単一のチェックで計算する新しい手法であるFlash-ABFTを提案する。
Flash-ABFTはハードウェアの5.3%のオーバヘッドしか発生しない
- 参考スコア(独自算出の注目度): 3.668018928502405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers and large language models (LLMs), powered by the attention mechanism, have transformed numerous AI applications, driving the need for specialized hardware accelerators. A major challenge in these accelerators is efficiently detecting errors caused by random hardware faults. Traditional algorithm-based fault tolerance (ABFT) techniques verify individual matrix multiplications but fall short in handling the full attention mechanism, particularly due to intermediate softmax normalization. This work proposes Flash-ABFT, a novel method that computes an online checksum across the entire three-matrix product of query, key and value matrices, of an attention layer, including the softmax operation, with a single check. This approach significantly reduces overhead by eliminating redundant checks while maintaining high fault-detection accuracy. Experimental results demonstrate that Flash-ABFT incurs only 5.3% hardware area overhead and less than 1.9% energy overhead, making it a cost-effective and robust solution for error detection in attention accelerators.
- Abstract(参考訳): 注意機構によって駆動されるトランスフォーマーと大規模言語モデル(LLM)は、多数のAIアプリケーションを変換し、特別なハードウェアアクセラレーターの必要性を高めている。
これらのアクセラレーターの大きな課題は、ランダムなハードウェア故障によるエラーを効率的に検出することである。
従来のアルゴリズムベースのフォールトトレランス(ABFT)技術は、個々の行列乗法を検証するが、特に中間ソフトマックス正規化のため、完全なアテンション機構を扱うには不十分である。
本研究は,問合せ,キー,値行列の3つの行列全体のオンラインチェックサムを,ソフトマックス操作を含む注目層の1つのチェックサムで計算する新しい手法であるFlash-ABFTを提案する。
このアプローチは、高い故障検出精度を維持しながら冗長なチェックを排除し、オーバーヘッドを大幅に削減する。
実験の結果、Flash-ABFTはハードウェア領域の5.3%のオーバーヘッドと1.9%のエネルギーオーバーヘッドしか発生しないことがわかった。
関連論文リスト
- Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Periodic Online Testing for Sparse Systolic Tensor Arrays [0.0]
モダン機械学習(ML)アプリケーションは、しばしば構造化されたスパーシティの恩恵を受ける。これは、モデルの複雑さを効率的に低減し、ハードウェア内のスパースデータの処理を単純化するテクニックである。
本稿では,ベクトルの開始前にスパルス・シストリック・テンソルアレイ内の永久断層を検出し,検出するオンラインエラーチェック手法を提案する。
論文 参考訳(メタデータ) (2025-04-25T18:10:45Z) - FT-Transformer: Resilient and Reliable Transformer with End-to-End Fault Tolerant Attention [5.044679241062448]
トランスフォーマーモデルは、依存関係をキャプチャするために自己保持機構を活用し、様々なアプリケーションで例外的なパフォーマンスを示す。
既存のフォールトトレランス法は、切り離されたカーネルを使用して各操作を別々に保護し、かなりの計算とメモリオーバーヘッドを発生させる。
本稿では、エンドツーエンドのフォールトトレラントな注意を組み込んだトランスフォーマーモデルのための新しいエラー耐性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T02:05:08Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Dynamic Range Reduction via Branch-and-Bound [1.533133219129073]
ハードウェアアクセラレーターを強化するための主要な戦略は、算術演算における精度の低下である。
本稿ではQUBO問題における精度向上のための完全原理分岐境界アルゴリズムを提案する。
実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-17T03:07:56Z) - Characterizing Coherent Errors using Matrix-Element Amplification [0.27907340310431333]
動的デカップリング(MEADD)を用いたマトリックス素子増幅
実験により,MEADDは単一ビットゲートと2ビットゲートの系統的誤差を推定するために,既存のキャラクタリゼーションプロトコルの精度と精度を超えることを示した。
また,プロセッサのコヒーレントなクロストークを特徴付けるためにも使用しています。
論文 参考訳(メタデータ) (2024-04-19T00:05:10Z) - ALBERTA: ALgorithm-Based Error Resilience in Transformer Architectures [5.502117675161604]
ビジョントランスフォーマーは、信頼性の高い安全クリティカルなアプリケーションにますますデプロイされている。
過渡的ハードウェアエラーのような潜在的なエラーにもかかわらず、実行の正確性を保証することが不可欠である。
アルゴリズムベースのレジリエンスフレームワークであるALBERTAを提案する。
論文 参考訳(メタデータ) (2023-10-05T18:55:30Z) - Fast Flux-Activated Leakage Reduction for Superconducting Quantum
Circuits [84.60542868688235]
量子ビット実装のマルチレベル構造から生じる計算部分空間から漏れること。
パラメトリックフラックス変調を用いた超伝導量子ビットの資源効率向上のためのユニバーサルリーク低減ユニットを提案する。
繰り返し重み付け安定化器測定におけるリーク低減ユニットの使用により,検出されたエラーの総数を,スケーラブルな方法で削減できることを実証した。
論文 参考訳(メタデータ) (2023-09-13T16:21:32Z) - A Robust and Explainable Data-Driven Anomaly Detection Approach For
Power Electronics [56.86150790999639]
本稿では,2つの異常検出・分類手法,すなわち行列プロファイルアルゴリズムと異常変換器を提案する。
行列プロファイルアルゴリズムは、ストリーミング時系列データにおけるリアルタイム異常を検出するための一般化可能なアプローチとして適している。
検知器の感度、リコール、検出精度を調整するために、一連のカスタムフィルタが作成され、追加される。
論文 参考訳(メタデータ) (2022-09-23T06:09:35Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Towards Online Monitoring and Data-driven Control: A Study of
Segmentation Algorithms for Laser Powder Bed Fusion Processes [83.97264034062673]
レーザーパウダーベッド融合機の増加は、オンライン監視とデータ駆動制御能力を改善するためにオフ軸赤外線カメラを使用する。
我々は、各赤外線画像を前景と背景に分割する30以上のセグメンテーションアルゴリズムについて検討する。
同定されたアルゴリズムは、レーザ粉体層融合機に容易に適用でき、上記の各制限に対処し、プロセス制御を大幅に改善することができる。
論文 参考訳(メタデータ) (2020-11-18T03:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。