論文の概要: Light-Weight Fault Tolerant Attention for Large Language Model Training
- arxiv url: http://arxiv.org/abs/2410.11720v2
- Date: Wed, 16 Oct 2024 15:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:41:03.176839
- Title: Light-Weight Fault Tolerant Attention for Large Language Model Training
- Title(参考訳): 大規模言語モデル学習における軽量フォールトトレラント注意
- Authors: Yuhang Liang, Xinyi Li, Jie Ren, Ang Li, Bo Fang, Jieyang Chen,
- Abstract要約: 大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を示した。
LLMは、特にアテンション機構において故障の影響を受けやすいが、これはトランスフォーマーベースのLLMの重要な構成要素である。
我々は,LLMにおけるアテンション機構に適したアルゴリズムベースフォールトトレランス(ABFT)技術であるATTNCheckerを提案する。
- 参考スコア(独自算出の注目度): 14.178223242134166
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance in various natural language processing tasks. However, the training of these models is computationally intensive and susceptible to faults, particularly in the attention mechanism, which is a critical component of transformer-based LLMs. In this paper, we investigate the impact of faults on LLM training, focusing on INF, NaN, and near-INF values in the computation results with systematic fault injection experiments. We observe the propagation patterns of these errors, which can trigger non-trainable states in the model and disrupt training, forcing the procedure to load from checkpoints. To mitigate the impact of these faults, we propose ATTNChecker, the first Algorithm-Based Fault Tolerance (ABFT) technique tailored for the attention mechanism in LLMs. ATTNChecker is designed based on fault propagation patterns of LLM and incorporates performance optimization to adapt to both system reliability and model vulnerability while providing lightweight protection for fast LLM training. Evaluations on four LLMs show that ATTNChecker on average incurs on average 7% overhead on training while detecting and correcting all extreme errors. Compared with the state-of-the-art checkpoint/restore approach, ATTNChecker reduces recovery overhead by up to 49x.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を示した。
しかしながら、これらのモデルのトレーニングは計算集約的で、特に、トランスフォーマーベースのLCMの重要な構成要素である注意機構において、フォールトの影響を受けやすい。
本稿では, 系統的インジェクション実験による計算結果において, 故障がLLMトレーニングに与える影響について検討し, INF, NaN, near-INF値に着目した。
これらのエラーの伝播パターンを観察し、モデル内の非トレーニング可能な状態をトリガーし、トレーニングを妨害し、チェックポイントからのロードを強制する。
これらの欠陥の影響を軽減するために,LLM におけるアテンション機構に適したアルゴリズムベースフォールトトレランス (ABFT) 技術である ATTNChecker を提案する。
ATTNChecker は LLM の障害伝播パターンに基づいて設計されており、高速 LLM トレーニングのための軽量な保護を提供しながら、システムの信頼性とモデル脆弱性の両方に適応するために性能最適化を取り入れている。
4つのLCMでの評価では、ATTNCheckerは平均7%のオーバーヘッドで平均的なインキュレーションを行い、極端なエラーを検出し修正する。
ATTNCheckerは、最先端のチェックポイント/ストアアプローチと比較して、リカバリオーバーヘッドを最大49倍削減する。
関連論文リスト
- Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。
教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文 参考訳(メタデータ) (2024-07-24T16:33:04Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Enhancing Fault Detection for Large Language Models via Mutation-Based Confidence Smoothing [24.55745161068782]
大きな言語モデル(LLM)の欠点を素早く明らかにする方法は重要だが、難しい。
既存の故障検出手法はLLMではうまく動作しない。
そこで本研究では,Mutation-based prediction Confidence Smoothing method for LLMsを提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - Finetuning Large Language Models for Vulnerability Detection [0.0]
本稿では,ソースコードの脆弱性を検出するために,大規模言語モデル(LLM)の微調整を行った結果について述べる。
我々は、最新のLLM StarCoderの改良であるWizardCoderを活用し、さらなる微調整により脆弱性検出に適応する。
主なコントリビューションは、最先端のコードLLMであるWizardCoderの微調整、パフォーマンスを損なわないトレーニング速度の向上、トレーニング手順とレシフィケーションの最適化、クラス不均衡の処理、困難な脆弱性検出データセットのパフォーマンス向上である。
論文 参考訳(メタデータ) (2024-01-30T13:46:49Z) - Estimating Fr\'echet bounds for validating programmatic weak supervision [50.13475056199486]
我々は、ある変数が連続的に評価される(おそらく高次元の)分布クラス上のFr'echeの境界を推定する手法を開発する。
プログラム弱監督(PWS)を訓練した機械学習(ML)モデルの性能を評価することで,アルゴリズムの有用性を実証する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Fine-Tuning Pre-trained Language Model with Weak Supervision: A
Contrastive-Regularized Self-Training Approach [46.76317056976196]
微調整事前訓練言語モデル(LM)は多くの自然言語処理(NLP)タスクで大きな成功を収めた。
ラベル付きデータなしで、弱い監督のみを用いて、微調整済みのLMの問題について検討する。
我々は、微調整型LMを低監督で実現するために、対照的な自己学習フレームワークであるCOSINEを開発した。
論文 参考訳(メタデータ) (2020-10-15T15:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。