論文の概要: FT-Transformer: Resilient and Reliable Transformer with End-to-End Fault Tolerant Attention
- arxiv url: http://arxiv.org/abs/2504.02211v2
- Date: Wed, 13 Aug 2025 02:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.504771
- Title: FT-Transformer: Resilient and Reliable Transformer with End-to-End Fault Tolerant Attention
- Title(参考訳): FT変換器:終端耐故障性を有する弾性・信頼性変換器
- Authors: Huangliang Dai, Shixun Wu, Jiajun Huang, Zizhe Jian, Yue Zhu, Haiyang Hu, Zizhong Chen,
- Abstract要約: トランスフォーマーの既存のフォールトトレランスフレームワークは、アーキテクチャ最適化なしで運用レベルで設計されている。
本論文では,アテンションモジュール内の操作を単一カーネルとして扱うことにより,トランスフォーマーのモジュールレベル保護を実現する。
従来手法よりも最大7.56倍の高速化を実現し, 平均耐故障性能は13.9%であった。
- 参考スコア(独自算出の注目度): 5.261954615957387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models rely on High-Performance Computing (HPC) resources for inference, where soft errors are inevitable in large-scale systems, making the reliability of the model particularly critical. Existing fault tolerance frameworks for Transformers are designed at the operation level without architectural optimization, leading to significant computational and memory overhead, which in turn reduces protection efficiency and limits scalability to larger models. In this paper, we implement module-level protection for Transformers by treating the operations within the attention module as a single kernel and applying end-to-end fault tolerance. This method provides unified protection across multi-step computations, while achieving comprehensive coverage of potential errors in the nonlinear computations. For linear modules, we design a strided algorithm-based fault tolerance (ABFT) that avoids inter-thread communication. Experimental results show that our end-to-end fault tolerance achieves up to 7.56x speedup over traditional methods with an average fault tolerance overhead of 13.9%.
- Abstract(参考訳): トランスフォーマーモデルは、大規模システムではソフトエラーが避けられないような、ハイパフォーマンスコンピューティング(HPC)リソースに依存しており、モデルの信頼性は特に重要である。
トランスフォーマーの既存のフォールトトレランスフレームワークは、アーキテクチャ最適化なしで運用レベルで設計されており、計算とメモリのオーバーヘッドが大きくなり、それによって保護効率が低下し、より大きなモデルにスケーラビリティが制限される。
本稿では,アテンションモジュール内の操作を単一カーネルとして扱い,エンドツーエンドのフォールトトレランスを適用することでトランスフォーマーのモジュールレベル保護を実現する。
本手法は, 非線形計算における潜在的な誤差を包括的に網羅しながら, 多段階計算における統一的保護を実現する。
線形モジュールに対しては,スレッド間通信を回避したストリップアルゴリズムベースのフォールトトレランス(ABFT)を設計する。
実験の結果, 従来の手法よりも最大7.56倍の高速化を実現し, 平均耐故障オーバーヘッドは13.9%であった。
関連論文リスト
- Cost-Effective Fault Tolerance for CNNs Using Parameter Vulnerability Based Hardening and Pruning [0.4660328753262075]
本稿では,ニューラルネットワークに誤り訂正を直接組み込むことにより,CNNのモデルレベル硬化手法を提案する。
提案手法は,TMRに基づく補正とほぼ同等の耐故障性を示すが,オーバーヘッドは大幅に減少する。
注目すべきは、硬化したpruned CNNは、硬化したun-prunedよりも最大24%高速であることだ。
論文 参考訳(メタデータ) (2024-05-17T09:42:44Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Over-the-Air Federated Learning and Optimization [52.5188988624998]
エッジ・ザ・エア計算(AirComp)によるフェデレーション学習(FL)に焦点を当てる。
本稿では,AirComp ベースの FedAvg (AirFedAvg) アルゴリズムの凸および非凸条件下での収束について述べる。
エッジデバイス(モデル、勾配、モデル差など)で送信できるローカルアップデートの種類によって、AirFedAvgで送信するとアグリゲーションエラーが発生する可能性がある。
さらに、より実用的な信号処理方式を検討し、通信効率を改善し、これらの信号処理方式によって引き起こされるモデル集約誤差の異なる形式に収束解析を拡張する。
論文 参考訳(メタデータ) (2023-10-16T05:49:28Z) - ALBERTA: ALgorithm-Based Error Resilience in Transformer Architectures [5.502117675161604]
ビジョントランスフォーマーは、信頼性の高い安全クリティカルなアプリケーションにますますデプロイされている。
過渡的ハードウェアエラーのような潜在的なエラーにもかかわらず、実行の正確性を保証することが不可欠である。
アルゴリズムベースのレジリエンスフレームワークであるALBERTAを提案する。
論文 参考訳(メタデータ) (2023-10-05T18:55:30Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - ApproxABFT: Approximate Algorithm-Based Fault Tolerance for Neural Network Processing [7.578258600530223]
本稿では,計算誤差が大きい場合にのみエラー回復を開始するApproxABFTを提案する。
このアプローチでは、不要なリカバリ手順を回避し、エラーリカバリプロセスを合理化し、影響のあるエラーの修正に重点を置いている。
実験の結果、ApproxABFTは計算オーバーヘッドを67.83%削減し、許容ビットエラー率を平均で桁違いに改善した。
論文 参考訳(メタデータ) (2023-02-21T06:21:28Z) - DeepFT: Fault-Tolerant Edge Computing using a Self-Supervised Deep
Surrogate Model [12.335763358698564]
本稿では,システム過負荷とその悪影響を積極的に回避するためにDeepFTを提案する。
DeepFTは、システム内の障害を正確に予測し、診断するために、ディープサロゲートモデルを使用している。
モデルのサイズが1ユニットあたりわずか3~1%のスケールで、アクティブなタスクやホストの数が増えるため、非常にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2022-12-02T16:51:58Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - Fault-tolerant parity readout on a shuttling-based trapped-ion quantum
computer [64.47265213752996]
耐故障性ウェイト4パリティチェック測定方式を実験的に実証した。
フラグ条件パリティ測定の単発忠実度は93.2(2)%である。
このスキームは、安定化器量子誤り訂正プロトコルの幅広いクラスにおいて必須な構成要素である。
論文 参考訳(メタデータ) (2021-07-13T20:08:04Z) - FT-CNN: Algorithm-Based Fault Tolerance for Convolutional Neural
Networks [13.100954947774163]
畳み込みニューラルネットワーク(CNN)は、多くの分野において困難で重要な問題を解決するためにますます重要になっている。
CNN推論アプリケーションは、高エネルギー粒子や高温、異常電圧によるソフトエラーに悩まされる安全クリティカルなシステムにデプロイされている。
従来のフォールトトレランス法は、エラー訂正符号が計算コンポーネントを保護することができないため、CNNの推論には適さない。
論文 参考訳(メタデータ) (2020-03-27T02:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。