論文の概要: Failure Tolerant Training with Persistent Memory Disaggregation over CXL
- arxiv url: http://arxiv.org/abs/2301.07492v1
- Date: Sat, 14 Jan 2023 05:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 15:59:31.493510
- Title: Failure Tolerant Training with Persistent Memory Disaggregation over CXL
- Title(参考訳): cxl上の永続記憶分散による耐障害訓練
- Authors: Miryeong Kwon, Junhyeok Jang, Hanjin Choi, Sangwon Lee, Myoungsoo Jung
- Abstract要約: 本稿では,分散メモリのプール内で大規模レコメンデーションデータセットを効率的に処理できるTRAININGCXLを提案する。
この目的のために、永続メモリ(PMEM)とGPUをキャッシュコヒーレントなドメインにType-2として統合する。
評価の結果,TRAININGCXLはPMEMベースの推薦システムと比較して5.2倍のトレーニング性能向上と76%の省エネを実現していることがわかった。
- 参考スコア(独自算出の注目度): 7.700500756012469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes TRAININGCXL that can efficiently process large-scale
recommendation datasets in the pool of disaggregated memory while making
training fault tolerant with low overhead. To this end, i) we integrate
persistent memory (PMEM) and GPU into a cache-coherent domain as Type-2.
Enabling CXL allows PMEM to be directly placed in GPU's memory hierarchy, such
that GPU can access PMEM without software intervention. TRAININGCXL introduces
computing and checkpointing logic near the CXL controller, thereby training
data and managing persistency in an active manner. Considering PMEM's
vulnerability, ii) we utilize the unique characteristics of recommendation
models and take the checkpointing overhead off the critical path of their
training. Lastly, iii) TRAININGCXL employs an advanced checkpointing technique
that relaxes the updating sequence of model parameters and embeddings across
training batches. The evaluation shows that TRAININGCXL achieves 5.2x training
performance improvement and 76% energy savings, compared to the modern
PMEM-based recommendation systems.
- Abstract(参考訳): 本稿では,分散メモリのプール内で大規模レコメンデーションデータセットを効率的に処理し,低オーバーヘッドのトレーニング障害に耐性を持たせるためのトレーニングcxlを提案する。
この目的のために
i) 永続メモリ(PMEM)とGPUをキャッシュコヒーレントドメインにType-2として統合する。
CXLにより、PMEMはGPUのメモリ階層に直接配置でき、GPUはソフトウェアを介さずにPMEMにアクセスできる。
trainingcxlはcxlコントローラの近くにコンピューティングとチェックポイントロジックを導入し、データのトレーニングと永続性の管理をアクティブに行う。
PMEMの脆弱性を考える。
二 推薦モデルの独特な特徴を利用して、その訓練のクリティカルパスからチェックポイントのオーバーヘッドを取り出す。
最後に
iii)TRAININGCXLは、トレーニングバッチ間のモデルパラメータと埋め込みの更新シーケンスを緩和する高度なチェックポイント技術を採用している。
評価の結果,TRAININGCXLはPMEMベースの推薦システムと比較して5.2倍のトレーニング性能向上と76%の省エネを実現していることがわかった。
関連論文リスト
- GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.19973370560533]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - POET: Training Neural Networks on Tiny Devices with Integrated
Rematerialization and Paging [35.397804171588476]
エッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。
バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。
論文 参考訳(メタデータ) (2022-07-15T18:36:29Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Training strategy for a lightweight countermeasure model for automatic
speaker verification [6.174721516017139]
本稿では,ASVのための軽量CMモデルのトレーニング戦略を提案する。
ASVspoof 2021 Logical Accessタスクのevalua-tionフェーズでは、軽量ResNetSEモデルがmin t-DCF 0.2695とEER 3.54%に達する。
論文 参考訳(メタデータ) (2022-03-31T13:52:43Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z) - Revisiting Locally Supervised Learning: an Alternative to End-to-end
Training [36.43515074019875]
そこで我々は,情報伝達(InfoPro)損失を提案する。ローカルモジュールが可能な限り有用な情報を保存することを奨励する。
E2E トレーニングと比較して,InfoPro は 40% 未満のメモリフットプリントで競合性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2021-01-26T15:02:18Z) - Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。
近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文 参考訳(メタデータ) (2020-10-08T10:19:50Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。