論文の概要: FT-Transformer: Resilient and Reliable Transformer with End-to-End Fault Tolerant Attention
- arxiv url: http://arxiv.org/abs/2504.02211v1
- Date: Thu, 03 Apr 2025 02:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:24.029418
- Title: FT-Transformer: Resilient and Reliable Transformer with End-to-End Fault Tolerant Attention
- Title(参考訳): FT変換器:終端耐故障性を有する弾性・信頼性変換器
- Authors: Huangliang Dai, Shixun Wu, Hairui Zhao, Jiajun Huang, Zizhe Jian, Yue Zhu, Haiyang Hu, Zizhong Chen,
- Abstract要約: トランスフォーマーモデルは、依存関係をキャプチャするために自己保持機構を活用し、様々なアプリケーションで例外的なパフォーマンスを示す。
既存のフォールトトレランス法は、切り離されたカーネルを使用して各操作を別々に保護し、かなりの計算とメモリオーバーヘッドを発生させる。
本稿では、エンドツーエンドのフォールトトレラントな注意を組み込んだトランスフォーマーモデルのための新しいエラー耐性フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.044679241062448
- License:
- Abstract: Transformer models leverage self-attention mechanisms to capture complex dependencies, demonstrating exceptional performance in various applications. However, the long-duration high-load computations required for model inference impose stringent reliability demands on the computing platform, as soft errors that occur during execution can significantly degrade model performance. Existing fault tolerance methods protect each operation separately using decoupled kernels, incurring substantial computational and memory overhead. In this paper, we propose a novel error-resilient framework for Transformer models, integrating end-to-end fault tolerant attention (EFTA) to improve inference reliability against soft errors. Our approach enables error detection and correction within a fully fused attention kernel, reducing redundant data access and thereby mitigating memory faults. To further enhance error coverage and reduce overhead, we design a hybrid fault tolerance scheme tailored for the EFTA, introducing for the first time: 1) architecture-aware algorithm-based fault tolerance (ABFT) using tensor checksum, which minimizes inter-thread communication overhead on tensor cores during error detection; 2) selective neuron value restriction, which selectively applies adaptive fault tolerance constraints to neuron values, balancing error coverage and overhead; 3) unified verification, reusing checksums to streamline multiple computation steps into a single verification process. Experimental results show that EFTA achieves up to 7.56x speedup over traditional methods with an average fault tolerance overhead of 13.9%.
- Abstract(参考訳): トランスフォーマーモデルは、複雑な依存関係をキャプチャするために自己保持機構を活用し、様々なアプリケーションで例外的なパフォーマンスを示す。
しかし、モデル推論に必要な長時間の高負荷計算は、実行中に発生するソフトエラーがモデル性能を著しく低下させるため、コンピューティングプラットフォームに厳しい信頼性を要求する。
既存のフォールトトレランス法は、切り離されたカーネルを使用して各操作を別々に保護し、かなりの計算とメモリオーバーヘッドを発生させる。
本稿では,ソフトエラーに対する推論信頼性を向上させるために,エンド・ツー・エンドのフォールトトレラント・アテンション(EFTA)を統合したトランスフォーマーモデルのための新しいエラー耐性フレームワークを提案する。
提案手法により,完全融合された注目カーネル内のエラー検出と修正が可能となり,冗長なデータアクセスを低減し,メモリ障害を軽減できる。
エラーカバレッジのさらなる向上とオーバーヘッドの削減を目的として,EFTAに適したハイブリッド耐故障スキームを設計し,初めて紹介する。
1) エラー検出時のテンソルコア上でのスレッド間通信オーバーヘッドを最小限に抑えるテンソルチェックサムを用いたアーキテクチャ対応アルゴリズムベースのフォールトトレランス(ABFT)
2 選択的ニューロン値制限は、ニューロン値に適応的耐障害性制約を選択的に適用し、エラーカバレッジとオーバーヘッドのバランスをとる。
3) 検証を統一し、チェックサムを再利用し、複数の計算ステップを1つの検証プロセスに合理化する。
実験の結果、EFTAは従来の手法よりも最大7.56倍のスピードアップを達成し、平均耐故障性は13.9%であった。
関連論文リスト
- Cost-Effective Fault Tolerance for CNNs Using Parameter Vulnerability Based Hardening and Pruning [0.4660328753262075]
本稿では,ニューラルネットワークに誤り訂正を直接組み込むことにより,CNNのモデルレベル硬化手法を提案する。
提案手法は,TMRに基づく補正とほぼ同等の耐故障性を示すが,オーバーヘッドは大幅に減少する。
注目すべきは、硬化したpruned CNNは、硬化したun-prunedよりも最大24%高速であることだ。
論文 参考訳(メタデータ) (2024-05-17T09:42:44Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Over-the-Air Federated Learning and Optimization [52.5188988624998]
エッジ・ザ・エア計算(AirComp)によるフェデレーション学習(FL)に焦点を当てる。
本稿では,AirComp ベースの FedAvg (AirFedAvg) アルゴリズムの凸および非凸条件下での収束について述べる。
エッジデバイス(モデル、勾配、モデル差など)で送信できるローカルアップデートの種類によって、AirFedAvgで送信するとアグリゲーションエラーが発生する可能性がある。
さらに、より実用的な信号処理方式を検討し、通信効率を改善し、これらの信号処理方式によって引き起こされるモデル集約誤差の異なる形式に収束解析を拡張する。
論文 参考訳(メタデータ) (2023-10-16T05:49:28Z) - ALBERTA: ALgorithm-Based Error Resilience in Transformer Architectures [5.502117675161604]
ビジョントランスフォーマーは、信頼性の高い安全クリティカルなアプリケーションにますますデプロイされている。
過渡的ハードウェアエラーのような潜在的なエラーにもかかわらず、実行の正確性を保証することが不可欠である。
アルゴリズムベースのレジリエンスフレームワークであるALBERTAを提案する。
論文 参考訳(メタデータ) (2023-10-05T18:55:30Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - DeepFT: Fault-Tolerant Edge Computing using a Self-Supervised Deep
Surrogate Model [12.335763358698564]
本稿では,システム過負荷とその悪影響を積極的に回避するためにDeepFTを提案する。
DeepFTは、システム内の障害を正確に予測し、診断するために、ディープサロゲートモデルを使用している。
モデルのサイズが1ユニットあたりわずか3~1%のスケールで、アクティブなタスクやホストの数が増えるため、非常にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2022-12-02T16:51:58Z) - Global Performance Guarantees for Neural Network Models of AC Power Flow [0.0]
機械学習のブラックボックスモデルの精度を厳格に検証することは、計算的に困難である。
本稿では, 非線形交流流方程式の基底真理を取り入れた, トラクタブルニューラルネットワーク検証手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T05:30:42Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - Fault-tolerant parity readout on a shuttling-based trapped-ion quantum
computer [64.47265213752996]
耐故障性ウェイト4パリティチェック測定方式を実験的に実証した。
フラグ条件パリティ測定の単発忠実度は93.2(2)%である。
このスキームは、安定化器量子誤り訂正プロトコルの幅広いクラスにおいて必須な構成要素である。
論文 参考訳(メタデータ) (2021-07-13T20:08:04Z) - FT-CNN: Algorithm-Based Fault Tolerance for Convolutional Neural
Networks [13.100954947774163]
畳み込みニューラルネットワーク(CNN)は、多くの分野において困難で重要な問題を解決するためにますます重要になっている。
CNN推論アプリケーションは、高エネルギー粒子や高温、異常電圧によるソフトエラーに悩まされる安全クリティカルなシステムにデプロイされている。
従来のフォールトトレランス法は、エラー訂正符号が計算コンポーネントを保護することができないため、CNNの推論には適さない。
論文 参考訳(メタデータ) (2020-03-27T02:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。