論文の概要: R2F: A Remote Retraining Framework for AIoT Processors with Computing
Errors
- arxiv url: http://arxiv.org/abs/2107.03096v1
- Date: Wed, 7 Jul 2021 09:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:58:34.896595
- Title: R2F: A Remote Retraining Framework for AIoT Processors with Computing
Errors
- Title(参考訳): R2F:コンピューティングエラーを伴うAIoTプロセッサのためのリモートリトレーニングフレームワーク
- Authors: Dawen Xu, Meng He, Cheng Liu, Ying Wang, Long Cheng, Huawei Li,
Xiaowei Li, Kwang-Ting Cheng
- Abstract要約: 新たな技術ノードで製造されたAIoTプロセッサは、トランジスタサイズが縮小し電力供給が低くなるため、ソフトエラーが増大する。
本稿では,コンピュータエラーを考慮したリモートAIoTプロセッサのためのリモートリトレーニングフレームワーク(R2F)を提案する。
トレーニングループにソフトエラーのあるリモートAIoTプロセッサを使って、オンサイトコンピューティングエラーをサーバ上のアプリケーションデータで学習する。
- 参考スコア(独自算出の注目度): 24.09434550379414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AIoT processors fabricated with newer technology nodes suffer rising soft
errors due to the shrinking transistor sizes and lower power supply. Soft
errors on the AIoT processors particularly the deep learning accelerators
(DLAs) with massive computing may cause substantial computing errors. These
computing errors are difficult to be captured by the conventional training on
general purposed processors like CPUs and GPUs in a server. Applying the
offline trained neural network models to the edge accelerators with errors
directly may lead to considerable prediction accuracy loss.
To address the problem, we propose a remote retraining framework (R2F) for
remote AIoT processors with computing errors. It takes the remote AIoT
processor with soft errors in the training loop such that the on-site computing
errors can be learned with the application data on the server and the retrained
models can be resilient to the soft errors. Meanwhile, we propose an optimized
partial TMR strategy to enhance the retraining. According to our experiments,
R2F enables elastic design trade-offs between the model accuracy and the
performance penalty. The top-5 model accuracy can be improved by 1.93%-13.73%
with 0%-200% performance penalty at high fault error rate. In addition, we
notice that the retraining requires massive data transmission and even
dominates the training time, and propose a sparse increment compression
approach for the data transmission optimization, which reduces the retraining
time by 38%-88% on average with negligible accuracy loss over a straightforward
remote retraining.
- Abstract(参考訳): 新たな技術ノードで製造されたAIoTプロセッサは、トランジスタサイズが縮小し電力供給が低くなるため、ソフトエラーが増大する。
AIoTプロセッサのソフトエラー、特に大規模コンピューティングを伴うディープラーニングアクセラレータ(DLA)は、重大なコンピューティングエラーを引き起こす可能性がある。
これらの計算エラーは、サーバ内のCPUやGPUといった汎用プロセッサのトレーニングによって捉えるのが難しい。
オフラインでトレーニングされたニューラルネットワークモデルをエッジアクセラレータにエラーを直接適用することで、予測精度がかなり低下する可能性がある。
この問題に対処するために,コンピュータエラーを伴うリモートAIoTプロセッサのためのリモートリトレーニングフレームワーク(R2F)を提案する。
トレーニングループにソフトエラーのあるリモートaiotプロセッサを使用し、サーバ上のアプリケーションデータでオンサイトコンピューティングエラーを学習し、再トレーニングされたモデルをソフトエラーに耐性を持たせることができる。
一方,再トレーニングの強化を目的とした部分的TMR戦略を提案する。
我々の実験によると、R2Fはモデル精度と性能ペナルティの間の弾性設計トレードオフを可能にする。
top-5モデルの精度は、1.93%-13.73%向上でき、0%-200%性能はエラー率が高い。
さらに,リトレーニングには大量のデータ伝送が必要であり,かつ,トレーニング時間も支配している点に気付き,データ転送最適化のためのスパースインクリメント圧縮手法を提案する。
関連論文リスト
- Optimistic Verifiable Training by Controlling Hardware Nondeterminism [22.85808027490485]
トレーニング中のGPUタイプ間の非決定性は、トレーニングプロセスの正確な複製を防ぐ。
本稿では,目標よりも高精度なトレーニング,中間計算後のラウンドリング,適応的しきい値決定に基づくラウンドリング決定の共有を併用する手法を提案する。
検証可能なトレーニング手法は,証明ベースシステムと比較して,ストレージと時間コストを著しく削減する。
論文 参考訳(メタデータ) (2024-03-14T17:44:35Z) - Adversarial Unlearning: Reducing Confidence Along Adversarial Directions [88.46039795134993]
本稿では,自己生成事例の信頼性を低下させる補完的な正規化戦略を提案する。
RCADと呼ばれるこの手法は、トレーニング損失を増やすために反対に選択された方向に沿って横たわっている流通外の事例に対する信頼性を低下させることを目的としている。
その単純さにもかかわらず、多くの分類ベンチマークでは、RCADを既存の技術に追加して、絶対値の1~3%の精度でテストできることがわかった。
論文 参考訳(メタデータ) (2022-06-03T02:26:24Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Low Precision Decentralized Distributed Training with Heterogeneous Data [5.43185002439223]
トレーニングと推論の計算複雑性を低減することを目的とした,低精度分散トレーニングの収束性を示す。
実験によると、8ビットの分散トレーニングは、不均一なデータであっても、その完全精度と比較して、最小限の精度の損失がある。
論文 参考訳(メタデータ) (2021-11-17T20:48:09Z) - Joint Client Scheduling and Resource Allocation under Channel
Uncertainty in Federated Learning [47.97586668316476]
無線ネットワーク上のフェデレートラーニング(FL)は、クライアントサーバの接続性とクライアントのローカル計算能力の信頼性に依存する。
本稿では、FLを用いたモデルトレーニングの性能を高めるため、クライアントスケジューリングとリソースブロック(RB)割り当ての問題について検討する。
提案手法は,最先端クライアントスケジューリングやRBアロケーション手法と比較して,トレーニング精度損失のギャップを最大40.7%削減する。
論文 参考訳(メタデータ) (2021-06-12T15:18:48Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Data optimization for large batch distributed training of deep neural
networks [0.19336815376402716]
ディープニューラルネットワークの分散トレーニングの現在のプラクティスは、大規模運用における通信ボトルネックの課題に直面している。
本研究では,局所的ミニマの少ない損失環境を暗黙的に平滑化するために,機械学習を用いたデータ最適化手法を提案する。
当社のアプローチでは,機能学習において重要でないデータポイントをフィルタリングすることで,より大きなバッチサイズでのモデルのトレーニングを高速化し,精度の向上を実現しています。
論文 参考訳(メタデータ) (2020-12-16T21:22:02Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Step-Ahead Error Feedback for Distributed Training with Compressed
Gradient [99.42912552638168]
集中型分散トレーニングにおける局所的エラーフィードバックによって,新たな"段階的ミスマッチ"問題が発生することを示す。
本稿では, 厳密な理論的解析を施した2つの新しい手法, 1) 一歩前進, 2) 誤差平均化を提案する。
論文 参考訳(メタデータ) (2020-08-13T11:21:07Z) - Enabling On-Device CNN Training by Self-Supervised Instance Filtering
and Error Map Pruning [17.272561332310303]
この研究は、トレーニング時の計算コストを削減し、デバイス上での畳み込みニューラルネットワーク(CNN)のトレーニングを可能にすることを目的としている。
CNNモデルは、通常高性能コンピュータ上で訓練され、訓練されたモデルのみがエッジデバイスにデプロイされる。
論文 参考訳(メタデータ) (2020-07-07T05:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。