論文の概要: GPU Memory Prediction for Multimodal Model Training
- arxiv url: http://arxiv.org/abs/2512.07853v1
- Date: Wed, 26 Nov 2025 06:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.516504
- Title: GPU Memory Prediction for Multimodal Model Training
- Title(参考訳): マルチモーダルモデルトレーニングのためのGPUメモリ予測
- Authors: Jinwoo Jeong, Minchul Kang, Younghun Go, Changyong Shin, Hyunho Lee, Junho Yoon, Gyeongsik Yang, Chuck Yoo,
- Abstract要約: 本稿では,マルチモーダルモデルのモデルアーキテクチャとトレーニング動作を分析し,GPUのピークメモリ使用量を予測するフレームワークを提案する。
本フレームワークは平均MAPEの8.7%の高精度な予測精度を実現する。
- 参考スコア(独自算出の注目度): 12.707615972878472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep learning models in agentic AI systems grow in scale and complexity, GPU memory requirements increase and often exceed the available GPU memory capacity, so that out-of-memory (OoM) errors occur. It is well known that OoM interrupts the whole training itself and wastes substantial computational resources. Therefore, to prevent OoM, accurate prediction of GPU memory usage is essential. However, previous studies focus only on unimodal architectures and fail to generalize to multimodal models, even though the multimodal models are a common choice in agentic AI systems. To address this limitation, we propose a framework that predicts the peak GPU memory usage by analyzing the model architecture and training behavior of multimodal models. Specifically, the framework decomposes the multimodal model into its constituent layers and applies factorization to estimate the memory usage of each layer. Our evaluation shows that our framework achieves high prediction accuracy of ~8.7% average MAPE.
- Abstract(参考訳): エージェントAIシステムのディープラーニングモデルがスケールと複雑性を増すにつれて、GPUメモリの要求は増加し、利用可能なGPUメモリ容量を超えることが多いため、メモリ外エラー(OoM)が発生する。
OoMがトレーニング全体を中断し、かなりの計算資源を浪費していることはよく知られている。
したがって、OoMを防ぐためには、GPUメモリ使用率の正確な予測が不可欠である。
しかし、以前の研究では、エージェントAIシステムにおいて、マルチモーダルモデルが一般的な選択肢であるにもかかわらず、非モーダルアーキテクチャのみに焦点が当てられ、マルチモーダルモデルへの一般化に失敗していた。
この制限に対処するため,マルチモーダルモデルのモデルアーキテクチャとトレーニング動作を分析し,GPUのピークメモリ使用量を予測するフレームワークを提案する。
具体的には、このフレームワークはマルチモーダルモデルを構成層に分解し、各レイヤのメモリ使用量を推定するために分解を適用する。
評価の結果,約8.7%のMAPEの予測精度が得られた。
関連論文リスト
- xMem: A CPU-Based Approach for Accurate Estimation of GPU Memory in Deep Learning Training Workloads [2.2991119948183525]
ジョブがどれだけのGPUメモリを必要とするかを推定することは、高度なスケジューリングとGPUの共有を可能にするための基本となる。
我々は、CPUのみの動的解析を利用してGPUメモリのピーク要求を正確に推定する新しいフレームワークであるxMemを提案する。
ANOVAとMonte Carloの結果を含む5209実行の解析は、xMemのメリットを強調している。
論文 参考訳(メタデータ) (2025-10-23T23:16:27Z) - Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。
本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文 参考訳(メタデータ) (2025-03-11T11:21:35Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。
これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。
対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文 参考訳(メタデータ) (2020-10-04T19:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。