論文の概要: What is the State of Memory Saving for Model Training?
- arxiv url: http://arxiv.org/abs/2303.14633v1
- Date: Sun, 26 Mar 2023 05:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:29:19.573904
- Title: What is the State of Memory Saving for Model Training?
- Title(参考訳): モデルトレーニングのメモリ節約状況はどのようなものか?
- Authors: Xiaoxuan Liu, Siddharth Jha, Chuyan Zhu, Zhuohan Li, Alvin Cheung
- Abstract要約: メモリ最適化手法について検討し、これらの戦略はピークメモリ使用量を減らすが、トレーニングのスループットを最大9.3倍に削減できることを示した。
本稿では,メモリとトレーニング時間のトレードオフを定量的に説明するための,シンプルだが効果的なパフォーマンスモデルPAPAYAを提案する。
- 参考スコア(独自算出の注目度): 14.266471686644314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large neural networks can improve the accuracy and generalization on tasks
across many domains. However, this trend cannot continue indefinitely due to
limited hardware memory. As a result, researchers have devised a number of
memory optimization methods (MOMs) to alleviate the memory bottleneck, such as
gradient checkpointing, quantization, and swapping. In this work, we study
memory optimization methods and show that, although these strategies indeed
lower peak memory usage, they can actually decrease training throughput by up
to 9.3x. To provide practical guidelines for practitioners, we propose a simple
but effective performance model PAPAYA to quantitatively explain the memory and
training time trade-off. PAPAYA can be used to determine when to apply the
various memory optimization methods in training different models. We outline
the circumstances in which memory optimization techniques are more advantageous
based on derived implications from PAPAYA. We assess the accuracy of PAPAYA and
the derived implications on a variety of machine models, showing that it
achieves over 0.97 R score on predicting the peak memory/throughput, and
accurately predicts the effectiveness of MOMs across five evaluated models on
vision and NLP tasks.
- Abstract(参考訳): 大きなニューラルネットワークは、多くのドメインにわたるタスクの正確性と一般化を改善することができる。
しかし、ハードウェアメモリが限られているため、この傾向はいつまでも継続できない。
その結果,グラデーションチェックポイントや量子化,スワップングなど,メモリボトルネックを軽減するメモリ最適化手法(moms)が数多く考案された。
本研究では,メモリ最適化手法について検討し,ピークメモリ使用率を実際に低下させるが,トレーニングスループットを最大9.3倍低減できることを示す。
実践者のための実践的ガイドラインとして,記憶とトレーニング時間のトレードオフを定量的に説明するための,シンプルで効果的なパフォーマンスモデルPAPAYAを提案する。
PAPAYAは、異なるモデルをトレーニングする際に、いつ様々なメモリ最適化手法を適用するかを決定するために使用できる。
メモリ最適化技術がパパイヤから派生した意味に基づいてより有利な状況について概説する。
我々は, PAPAYAの精度と, 様々なマシンモデルにおける導出効果を評価し, ピークメモリ/スループット予測における0.97R以上のスコアを達成し, 視覚およびNLPタスク上での5つの評価モデル間のMOMの有効性を正確に予測した。
関連論文リスト
- Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文 参考訳(メタデータ) (2024-01-17T21:28:00Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Better Understanding Differences in Attribution Methods via Systematic
Evaluations [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement
Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。
システムのサンプリング効率を高めるために,能動的学習法を提案する。
実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文 参考訳(メタデータ) (2020-05-30T06:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。