論文の概要: What is the State of Memory Saving for Model Training?
- arxiv url: http://arxiv.org/abs/2303.14633v1
- Date: Sun, 26 Mar 2023 05:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:29:19.573904
- Title: What is the State of Memory Saving for Model Training?
- Title(参考訳): モデルトレーニングのメモリ節約状況はどのようなものか?
- Authors: Xiaoxuan Liu, Siddharth Jha, Chuyan Zhu, Zhuohan Li, Alvin Cheung
- Abstract要約: メモリ最適化手法について検討し、これらの戦略はピークメモリ使用量を減らすが、トレーニングのスループットを最大9.3倍に削減できることを示した。
本稿では,メモリとトレーニング時間のトレードオフを定量的に説明するための,シンプルだが効果的なパフォーマンスモデルPAPAYAを提案する。
- 参考スコア(独自算出の注目度): 14.266471686644314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large neural networks can improve the accuracy and generalization on tasks
across many domains. However, this trend cannot continue indefinitely due to
limited hardware memory. As a result, researchers have devised a number of
memory optimization methods (MOMs) to alleviate the memory bottleneck, such as
gradient checkpointing, quantization, and swapping. In this work, we study
memory optimization methods and show that, although these strategies indeed
lower peak memory usage, they can actually decrease training throughput by up
to 9.3x. To provide practical guidelines for practitioners, we propose a simple
but effective performance model PAPAYA to quantitatively explain the memory and
training time trade-off. PAPAYA can be used to determine when to apply the
various memory optimization methods in training different models. We outline
the circumstances in which memory optimization techniques are more advantageous
based on derived implications from PAPAYA. We assess the accuracy of PAPAYA and
the derived implications on a variety of machine models, showing that it
achieves over 0.97 R score on predicting the peak memory/throughput, and
accurately predicts the effectiveness of MOMs across five evaluated models on
vision and NLP tasks.
- Abstract(参考訳): 大きなニューラルネットワークは、多くのドメインにわたるタスクの正確性と一般化を改善することができる。
しかし、ハードウェアメモリが限られているため、この傾向はいつまでも継続できない。
その結果,グラデーションチェックポイントや量子化,スワップングなど,メモリボトルネックを軽減するメモリ最適化手法(moms)が数多く考案された。
本研究では,メモリ最適化手法について検討し,ピークメモリ使用率を実際に低下させるが,トレーニングスループットを最大9.3倍低減できることを示す。
実践者のための実践的ガイドラインとして,記憶とトレーニング時間のトレードオフを定量的に説明するための,シンプルで効果的なパフォーマンスモデルPAPAYAを提案する。
PAPAYAは、異なるモデルをトレーニングする際に、いつ様々なメモリ最適化手法を適用するかを決定するために使用できる。
メモリ最適化技術がパパイヤから派生した意味に基づいてより有利な状況について概説する。
我々は, PAPAYAの精度と, 様々なマシンモデルにおける導出効果を評価し, ピークメモリ/スループット予測における0.97R以上のスコアを達成し, 視覚およびNLPタスク上での5つの評価モデル間のMOMの有効性を正確に予測した。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement
Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。
システムのサンプリング効率を高めるために,能動的学習法を提案する。
実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文 参考訳(メタデータ) (2020-05-30T06:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。