Fugu-MT 論文翻訳(概要): Taming the Memory Beast: Strategies for Reliable ML Training on Kubernetes

論文の概要: Taming the Memory Beast: Strategies for Reliable ML Training on Kubernetes

arxiv url: http://arxiv.org/abs/2412.14701v2
Date: Wed, 25 Dec 2024 06:36:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 16:01:36.484167
Title: Taming the Memory Beast: Strategies for Reliable ML Training on Kubernetes
Title（参考訳）: メモリビーストのモデリング - Kubernetes上での信頼性の高いMLトレーニングの戦略
Authors: Jaideep Ray,
Abstract要約: 本稿では、メモリ要求、制限、Quality of Serviceクラス、MLワークロードの排除ポリシーの扱い方法について概説する。オーバーコミットやメモリリーク,一時容積の枯渇など,一般的な落とし穴について検討した。
参考スコア（独自算出の注目度）: 0.9790236766474201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Kubernetes offers a powerful orchestration platform for machine learning training, but memory management can be challenging due to specialized needs and resource constraints. This paper outlines how Kubernetes handles memory requests, limits, Quality of Service classes, and eviction policies for ML workloads, with special focus on GPU memory and ephemeral storage. Common pitfalls such as overcommitment, memory leaks, and ephemeral volume exhaustion are examined. We then provide best practices for stable, scalable memory utilization to help ML practitioners prevent out-of-memory events and ensure high-performance ML training pipelines.
Abstract（参考訳）: Kubernetesは機械学習トレーニングのための強力なオーケストレーションプラットフォームを提供するが、特別なニーズとリソース制約のため、メモリ管理は難しい場合がある。この記事では、Kubernetesがメモリ要求、制限、Quality of Serviceクラス、MLワークロードの排除ポリシーをどのように扱うかを説明し、特にGPUメモリと短命なストレージに重点を置いている。オーバーコミットやメモリリーク,一時容積の枯渇など,一般的な落とし穴について検討した。次に、安定的でスケーラブルなメモリ利用のためのベストプラクティスを提供し、ML実践者がメモリ外イベントを防止し、高性能なMLトレーニングパイプラインを確保するのに役立ちます。

関連論文リスト

Reducing GPU Memory Fragmentation via Spatio-Temporal Planning for Efficient Large-Scale Model Training [9.775731832789116]
本稿では,ディープラーニングフレームワークのためのGPUメモリアレータSTWeaverを紹介し,メモリ割り当て動作の時間的規則性を利用してフラグメンテーションを低減する。プラグPyTorchとして開発されたSTWeaverは、密度とスパースモデルの両方で平均79.2%(最大100%)のフラグメンテーション比を、無視できるオーバーヘッドで減少させる。
論文参考訳（メタデータ） (2025-07-22T06:39:07Z)
MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。 MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文参考訳（メタデータ） (2025-07-04T17:21:46Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。 MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文参考訳（メタデータ） (2024-07-16T18:59:49Z)
ProTrain: Efficient LLM Training via Memory-Aware Techniques [18.30799115938978]
本稿では,メモリ,計算,IOの調整によってメモリ使用量と性能のバランスをとる新しいトレーニングシステムであるProTrainを提案する。 ProTrainは、SOTAのトレーニングシステムと比較して、トレーニングのスループットを1.43$times$から2.71$timesに改善する。
論文参考訳（メタデータ） (2024-06-12T15:40:06Z)
MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文参考訳（メタデータ） (2024-04-17T18:13:16Z)
Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。 MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-07T08:34:57Z)
Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文参考訳（メタデータ） (2022-05-08T02:24:43Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Carousel Memory: Rethinking the Design of Episodic Memory for Continual Learning [19.260402028696916]
継続的な学習(CL)は、以前のタスクから学んだ知識を忘れずに、連続したタスクストリームから学習することを目的としている。以前の研究では、新しい非i.d.データから学習しながら、過去の観測されたサンプルのサブセットを格納するエピソードメモリ(EM)を利用している。メモリとストレージ間のサンプルを効率よく移行させることにより,過去の経験を保存し,忘れを軽減すべく,豊富なストレージを活用することを提案する。
論文参考訳（メタデータ） (2021-10-14T11:27:45Z)
Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文参考訳（メタデータ） (2021-02-24T19:55:49Z)
Learning to Ignore: Long Document Coreference with Bounded Memory Neural Networks [65.3963282551994]
我々は、すべてのエンティティをメモリに保持することは不要であると主張し、同時に少数のエンティティだけを追跡するメモリ拡張ニューラルネットワークを提案する。 a)OntoNotesとLitBankの高メモリ・計算要求モデルと競合する傾向にあり,(b)ルールベースの戦略よりも容易に効率の良いメモリ管理戦略を学習できることを示す。
論文参考訳（メタデータ） (2020-10-06T15:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。