Fugu-MT 論文翻訳(概要): Failure Tolerant Training with Persistent Memory Disaggregation over CXL

論文の概要: Failure Tolerant Training with Persistent Memory Disaggregation over CXL

arxiv url: http://arxiv.org/abs/2301.07492v1
Date: Sat, 14 Jan 2023 05:59:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-19 15:59:31.493510
Title: Failure Tolerant Training with Persistent Memory Disaggregation over CXL
Title（参考訳）: cxl上の永続記憶分散による耐障害訓練
Authors: Miryeong Kwon, Junhyeok Jang, Hanjin Choi, Sangwon Lee, Myoungsoo Jung
Abstract要約: 本稿では,分散メモリのプール内で大規模レコメンデーションデータセットを効率的に処理できるTRAININGCXLを提案する。この目的のために、永続メモリ(PMEM)とGPUをキャッシュコヒーレントなドメインにType-2として統合する。評価の結果,TRAININGCXLはPMEMベースの推薦システムと比較して5.2倍のトレーニング性能向上と76%の省エネを実現していることがわかった。
参考スコア（独自算出の注目度）: 7.700500756012469
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes TRAININGCXL that can efficiently process large-scale recommendation datasets in the pool of disaggregated memory while making training fault tolerant with low overhead. To this end, i) we integrate persistent memory (PMEM) and GPU into a cache-coherent domain as Type-2. Enabling CXL allows PMEM to be directly placed in GPU's memory hierarchy, such that GPU can access PMEM without software intervention. TRAININGCXL introduces computing and checkpointing logic near the CXL controller, thereby training data and managing persistency in an active manner. Considering PMEM's vulnerability, ii) we utilize the unique characteristics of recommendation models and take the checkpointing overhead off the critical path of their training. Lastly, iii) TRAININGCXL employs an advanced checkpointing technique that relaxes the updating sequence of model parameters and embeddings across training batches. The evaluation shows that TRAININGCXL achieves 5.2x training performance improvement and 76% energy savings, compared to the modern PMEM-based recommendation systems.
Abstract（参考訳）: 本稿では,分散メモリのプール内で大規模レコメンデーションデータセットを効率的に処理し,低オーバーヘッドのトレーニング障害に耐性を持たせるためのトレーニングcxlを提案する。この目的のために i) 永続メモリ(PMEM)とGPUをキャッシュコヒーレントドメインにType-2として統合する。 CXLにより、PMEMはGPUのメモリ階層に直接配置でき、GPUはソフトウェアを介さずにPMEMにアクセスできる。 trainingcxlはcxlコントローラの近くにコンピューティングとチェックポイントロジックを導入し、データのトレーニングと永続性の管理をアクティブに行う。 PMEMの脆弱性を考える。二推薦モデルの独特な特徴を利用して、その訓練のクリティカルパスからチェックポイントのオーバーヘッドを取り出す。最後に iii)TRAININGCXLは、トレーニングバッチ間のモデルパラメータと埋め込みの更新シーケンスを緩和する高度なチェックポイント技術を採用している。評価の結果,TRAININGCXLはPMEMベースの推薦システムと比較して5.2倍のトレーニング性能向上と76%の省エネを実現していることがわかった。

関連論文リスト

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
Memory Is Not the Bottleneck: Cost-Efficient Continual Learning via Weight Space Consolidation [55.77835198580209]
連続学習(CL)は、メモリが主要なボトルネックであると仮定して、メモリ使用量の最小化を伝統的に強調してきた。本稿では, CLを十分なメモリでより現実的な環境下で再検討し, システムが過去のデータの代表的部分を保持できることを示す。この体制下では、忘れることを減らすことによって安定性が向上するが、モデルが以前のタスクに偏り、新しいタスクに適応するのに苦労すると、可塑性は低下する。
論文参考訳（メタデータ） (2025-02-11T05:40:52Z)
Enabling Low-Cost Secure Computing on Untrusted In-Memory Architectures [5.565715369147691]
Processing-in-Memory(PIM)は、処理をデータに近づけることで、パフォーマンスを大幅に向上させる。暗号化されていないデータは、PIMにオフチップを移動させ、攻撃者にデータを公開し、信頼されたコンピューティングベース(TCB)上の仮定を破る。本論文では,マルチパーティ計算(MPC)技術,特に算術秘密共有とYaoのガーブロード回路を用いて,帯域幅集約計算をPIMに安全にアウトソースする。
論文参考訳（メタデータ） (2025-01-28T20:48:14Z)
Bisimulation metric for Model Predictive Control [44.301098448479195]
Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。 BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
論文参考訳（メタデータ） (2024-10-06T17:12:10Z)
ProTrain: Efficient LLM Training via Memory-Aware Techniques [18.30799115938978]
本稿では,メモリ,計算,IOの調整によってメモリ使用量と性能のバランスをとる新しいトレーニングシステムであるProTrainを提案する。 ProTrainは、SOTAのトレーニングシステムと比較して、トレーニングのスループットを1.43$times$から2.71$timesに改善する。
論文参考訳（メタデータ） (2024-06-12T15:40:06Z)
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文参考訳（メタデータ） (2024-05-22T06:48:43Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
Fast Machine Unlearning Without Retraining Through Selective Synaptic Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文参考訳（メタデータ） (2023-08-15T11:30:45Z)
TinyTrain: Resource-Aware Task-Adaptive Sparse Training of DNNs at the Data-Scarce Edge [27.533985670823945]
TinyTrainは、モデルの一部を選択的に更新することで、トレーニング時間を劇的に短縮するオンデバイストレーニングアプローチである。 TinyTrainはネットワーク全体のバニラ微調整を3.6-5.0%精度で上回る。 9.5倍の高速化と3.5倍のエネルギー効率のトレーニングを実現している。
論文参考訳（メタデータ） (2023-07-19T13:49:12Z)
POET: Training Neural Networks on Tiny Devices with Integrated Rematerialization and Paging [35.397804171588476]
エッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。
論文参考訳（メタデータ） (2022-07-15T18:36:29Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文参考訳（メタデータ） (2022-03-10T06:23:41Z)
Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文参考訳（メタデータ） (2020-10-08T10:19:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。