論文の概要: Memory Analysis on the Training Course of DeepSeek Models
- arxiv url: http://arxiv.org/abs/2502.07846v1
- Date: Tue, 11 Feb 2025 09:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:44:56.741616
- Title: Memory Analysis on the Training Course of DeepSeek Models
- Title(参考訳): 深層学習モデルの学習過程に関する記憶分析
- Authors: Ping Zhang, Lei Su,
- Abstract要約: 本稿では,DeepSeek-v2やDeepSeek-v3といったDeepSeekモデルのトレーニング中のGPUメモリ消費に関する理論的解析を行う。
本報告で論じるトレーニング方針がDeepSeekの公式設定を代表していない点を強調しておくことが重要である。
- 参考スコア(独自算出の注目度): 5.482535254884105
- License:
- Abstract: We present a theoretical analysis of GPU memory consumption during the training of DeepSeek models such as DeepSeek-v2 and DeepSeek-v3. Our primary objective is to clarify the device-level memory requirements associated with various distributed training configurations. Specifically, we examine critical factors influencing memory usage, including micro-batch size, activation recomputation policies, 3D parallelism, and ZeRO optimizations. It is important to emphasize that the training policies discussed in this report are not representative of DeepSeek's official configurations. Instead, they are explored to provide a deeper understanding of memory dynamics in training of large-scale mixture-of-experts model.
- Abstract(参考訳): 本稿では,DeepSeek-v2やDeepSeek-v3といったDeepSeekモデルのトレーニング中のGPUメモリ消費に関する理論的解析を行う。
我々の主な目的は、様々な分散トレーニング設定に関連するデバイスレベルのメモリ要件を明らかにすることである。
具体的には,マイクロバッチサイズ,アクティベーション再計算ポリシ,3次元並列処理,ZeRO最適化など,メモリ使用量に影響を与える重要な要因について検討する。
本報告で論じるトレーニング方針がDeepSeekの公式設定を代表していない点を強調しておくことが重要である。
代わりに、彼らは大規模なミックス・オブ・エキスパートモデルのトレーニングにおいて、メモリダイナミクスをより深く理解するために研究されている。
関連論文リスト
- DeepSeek-V3 Technical Report [147.16121855209246]
We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token。
我々は14.8兆の多様性と高品質のトークンでDeepSeek-V3を事前訓練し、その後にSupervised Fine-Tuning and Reinforcement Learningのステージを受講した。
包括的な評価によると、DeepSeek-V3は他のオープンソースモデルよりも優れており、主要なクローズドソースモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-27T04:03:16Z) - Three Things to Know about Deep Metric Learning [34.16300515811057]
本稿では,オープンセット画像検索のための教師付き深度学習について述べる。
損失関数、ミックスアップ正規化、モデル初期化の3つの重要な側面に焦点を当てている。
これらのコンポーネントの体系的な研究を通じて、それらの相乗効果により、大規模なモデルが一般的なベンチマークをほぼ解決できることを実証する。
論文 参考訳(メタデータ) (2024-12-17T00:49:12Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - DepthSplat: Connecting Gaussian Splatting and Depth [90.06180236292866]
ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
まず,事前学習した単眼深度特徴を生かして,頑健な多眼深度モデルを提案する。
また,ガウス的スプラッティングは教師なし事前学習の目的として機能することを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:58Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation [50.86932607832793]
モノクロ映像深度推定のための新しいメモリとアテンションフレームであるMAMOを提案する。
また,MAMoでは,映像を流すときの深度予測を支援するメモリによるモデル拡張を行う。
我々はMAMoが一貫した単分子深度推定ネットワークを改善し,SOTA(State-of-the-art)の精度を新たに設定することを示した。
論文 参考訳(メタデータ) (2023-07-26T17:55:32Z) - Analysis of memory consumption by neural networks based on
hyperparameters [0.0]
本稿では,ディープラーニングモデルの学習中にメモリ消費の総括分析を行う。
ハイパーパラメータの変化と隠蔽層の数はこの提案手法で考慮された変数である。
論文 参考訳(メタデータ) (2021-10-21T18:49:44Z) - More Is Better: An Analysis of Instance Quantity/Quality Trade-off in
Rehearsal-based Continual Learning [3.9596068699962315]
連続学習はコネクショナリストシステムの安定性・塑性ジレンマに対処する手段となっている。
本稿では、メモリに格納可能なインスタンス数を増やすために、様々なデータ削減アプローチを採用したメモリ量/品質トレードオフの分析を行う。
その結果, 最適トレードオフは, 非常に圧縮された複数のインスタンスによるリハーサルアプローチが, 最先端のアプローチよりも容易に向上することがわかった。
論文 参考訳(メタデータ) (2021-05-28T21:05:51Z) - Memory-based Deep Reinforcement Learning for POMDP [7.137228786549488]
長期記憶に基づく双発遅延深度決定政策グラデーション(LSTM-TD3)
その結果, 部分観測可能なMDPに対処する上で, メモリコンポーネントの顕著な利点が示された。
論文 参考訳(メタデータ) (2021-02-24T15:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。