Fugu-MT 論文翻訳(概要): What is the State of Memory Saving for Model Training?

論文の概要: What is the State of Memory Saving for Model Training?

arxiv url: http://arxiv.org/abs/2303.14633v1
Date: Sun, 26 Mar 2023 05:40:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 18:29:19.573904
Title: What is the State of Memory Saving for Model Training?
Title（参考訳）: モデルトレーニングのメモリ節約状況はどのようなものか?
Authors: Xiaoxuan Liu, Siddharth Jha, Chuyan Zhu, Zhuohan Li, Alvin Cheung
Abstract要約: メモリ最適化手法について検討し、これらの戦略はピークメモリ使用量を減らすが、トレーニングのスループットを最大9.3倍に削減できることを示した。本稿では,メモリとトレーニング時間のトレードオフを定量的に説明するための,シンプルだが効果的なパフォーマンスモデルPAPAYAを提案する。
参考スコア（独自算出の注目度）: 14.266471686644314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large neural networks can improve the accuracy and generalization on tasks across many domains. However, this trend cannot continue indefinitely due to limited hardware memory. As a result, researchers have devised a number of memory optimization methods (MOMs) to alleviate the memory bottleneck, such as gradient checkpointing, quantization, and swapping. In this work, we study memory optimization methods and show that, although these strategies indeed lower peak memory usage, they can actually decrease training throughput by up to 9.3x. To provide practical guidelines for practitioners, we propose a simple but effective performance model PAPAYA to quantitatively explain the memory and training time trade-off. PAPAYA can be used to determine when to apply the various memory optimization methods in training different models. We outline the circumstances in which memory optimization techniques are more advantageous based on derived implications from PAPAYA. We assess the accuracy of PAPAYA and the derived implications on a variety of machine models, showing that it achieves over 0.97 R score on predicting the peak memory/throughput, and accurately predicts the effectiveness of MOMs across five evaluated models on vision and NLP tasks.
Abstract（参考訳）: 大きなニューラルネットワークは、多くのドメインにわたるタスクの正確性と一般化を改善することができる。しかし、ハードウェアメモリが限られているため、この傾向はいつまでも継続できない。その結果,グラデーションチェックポイントや量子化,スワップングなど,メモリボトルネックを軽減するメモリ最適化手法(moms)が数多く考案された。本研究では,メモリ最適化手法について検討し,ピークメモリ使用率を実際に低下させるが,トレーニングスループットを最大9.3倍低減できることを示す。実践者のための実践的ガイドラインとして,記憶とトレーニング時間のトレードオフを定量的に説明するための,シンプルで効果的なパフォーマンスモデルPAPAYAを提案する。 PAPAYAは、異なるモデルをトレーニングする際に、いつ様々なメモリ最適化手法を適用するかを決定するために使用できる。メモリ最適化技術がパパイヤから派生した意味に基づいてより有利な状況について概説する。我々は, PAPAYAの精度と, 様々なマシンモデルにおける導出効果を評価し, ピークメモリ/スループット予測における0.97R以上のスコアを達成し, 視覚およびNLPタスク上での5つの評価モデル間のMOMの有効性を正確に予測した。

関連論文リスト

Absolute Evaluation Measures for Machine Learning: A Survey [0.0]
この調査は、機械学習における絶対評価指標の概要を提供する。学習のタイプによって構成され、クラスタリング、回帰、ランキングのメトリクスをカバーする。モデルの適切なメトリクスを選択するために必要なツールを実践者に提供することを目的としている。
論文参考訳（メタデータ） (2025-07-04T08:53:08Z)
MUBox: A Critical Evaluation Framework of Deep Machine Unlearning [13.186439491394474]
MUBoxは、ディープラーニングにおける未学習の手法を評価するために設計された総合的なプラットフォームである。 MUBoxは23の高度なアンラーニング技術を統合し、11の多様な評価指標で6つの実践シナリオでテストされている。
論文参考訳（メタデータ） (2025-05-13T13:50:51Z)
PALATE: Peculiar Application of the Law of Total Expectation to Enhance the Evaluation of Deep Generative Models [0.5499796332553708]
深層生成モデル(DGM)は機械学習の分野でパラダイムシフトを引き起こしている。これらのモデルに対する包括的評価は、生成したサンプルの忠実さ、多様性、新規性の間の三分法を考慮に入れている。本稿では,既存の指標の限界に対処するDGMの評価を新たに強化したPALATEを提案する。
論文参考訳（メタデータ） (2025-03-24T09:06:45Z)
Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。 Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文参考訳（メタデータ） (2025-02-05T08:35:55Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てているこのアルゴリズムは制約付きMDPの解法として検討されている。
論文参考訳（メタデータ） (2024-06-17T12:46:02Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
In Search of Insights, Not Magic Bullets: Towards Demystification of the Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文参考訳（メタデータ） (2023-02-06T16:55:37Z)
Efficient Real-world Testing of Causal Decision Making via Bayesian Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文参考訳（メタデータ） (2022-07-12T01:20:11Z)
Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文参考訳（メタデータ） (2022-05-11T04:00:44Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)
MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。システムのサンプリング効率を高めるために,能動的学習法を提案する。実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文参考訳（メタデータ） (2020-05-30T06:39:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。