Fugu-MT 論文翻訳(概要): ROAM: memory-efficient large DNN training via optimized operator ordering and memory layout

論文の概要: ROAM: memory-efficient large DNN training via optimized operator ordering and memory layout

arxiv url: http://arxiv.org/abs/2310.19295v1
Date: Mon, 30 Oct 2023 06:29:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 21:20:40.512294
Title: ROAM: memory-efficient large DNN training via optimized operator ordering and memory layout
Title（参考訳）: ROAM: 最適化されたオペレータオーダとメモリレイアウトによるメモリ効率の大きなDNNトレーニング
Authors: Huiyao Shu and Ang Wang and Ziji Shi and Hanyu Zhao and Yong Li and Lu Lu
Abstract要約: 本稿では,演算子順序とテンソルメモリレイアウトを最適化したメモリ効率の高い実行計画の導出のために,グラフレベルで動作するROAMを提案する。実験の結果、ROAMはPytorchと2つの最先端手法と比較して35.7%、13.3%、27.2%の大幅なメモリ削減を実現し、53.7倍の高速化を実現している。
参考スコア（独自算出の注目度）: 8.99065455675796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As deep learning models continue to increase in size, the memory requirements for training have surged. While high-level techniques like offloading, recomputation, and compression can alleviate memory pressure, they also introduce overheads. However, a memory-efficient execution plan that includes a reasonable operator execution order and tensor memory layout can significantly increase the models' memory efficiency and reduce overheads from high-level techniques. In this paper, we propose ROAM which operates on computation graph level to derive memory-efficient execution plan with optimized operator order and tensor memory layout for models. We first propose sophisticated theories that carefully consider model structure and training memory load to support optimization for large complex graphs that have not been well supported in the past. An efficient tree-based algorithm is further proposed to search task divisions automatically, along with delivering high performance and effectiveness to solve the problem. Experiments show that ROAM achieves a substantial memory reduction of 35.7%, 13.3%, and 27.2% compared to Pytorch and two state-of-the-art methods and offers a remarkable 53.7x speedup. The evaluation conducted on the expansive GPT2-XL further validates ROAM's scalability.
Abstract（参考訳）: ディープラーニングモデルのサイズが拡大するにつれ、トレーニングのメモリ要件は急増している。オフロード、再計算、圧縮といったハイレベルなテクニックはメモリのプレッシャーを軽減するが、オーバーヘッドも伴う。しかし、適切な演算子実行順序とテンソルメモリレイアウトを含むメモリ効率の高い実行プランは、モデルのメモリ効率を大幅に向上させ、ハイレベルな技術によるオーバーヘッドを低減することができる。本稿では,演算子順序とテンソルメモリレイアウトを最適化したメモリ効率実行計画の導出のために,計算グラフレベルで動作するROAMを提案する。まずモデル構造とメモリ負荷の訓練を慎重に検討し,これまで十分にサポートされていなかった大規模複雑なグラフの最適化を支援するための高度な理論を提案する。さらに,タスク分割を自動的に探索する効率的な木に基づくアルゴリズムを提案し,課題を解決するために高い性能と有効性を提供する。実験の結果、ROAMはPytorchと2つの最先端手法と比較して35.7%、13.3%、27.2%の大幅なメモリ削減を実現し、53.7倍のスピードアップを実現している。 GPT2-XLの拡張による評価は、ROAMのスケーラビリティをさらに検証する。

関連論文リスト

Reducing GPU Memory Fragmentation via Spatio-Temporal Planning for Efficient Large-Scale Model Training [9.775731832789116]
本稿では,ディープラーニングフレームワークのためのGPUメモリアレータSTWeaverを紹介し,メモリ割り当て動作の時間的規則性を利用してフラグメンテーションを低減する。プラグPyTorchとして開発されたSTWeaverは、密度とスパースモデルの両方で平均79.2%(最大100%)のフラグメンテーション比を、無視できるオーバーヘッドで減少させる。
論文参考訳（メタデータ） (2025-07-22T06:39:07Z)
Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking [26.80161478380058]
大規模言語モデル(LLM)は前例のない速度で成長し、最近のモデルには数兆のパラメータを含むものもある。この成長には、特にトレーニングや微調整に必要なメモリと計算資源に関して、かなりの計算上の課題が伴う。パラメーターまたはメモリ効率のよいメソッドは、事前トレーニングの効率を高めつつ、フルモデルトレーニングに匹敵するパフォーマンスを達成することができるだろうか?
論文参考訳（メタデータ） (2025-05-28T22:51:43Z)
Breaking Memory Limits: Gradient Wavelet Transform Enhances LLMs Training [45.225732322141994]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで優れたパフォーマンスを発揮する。彼らの膨大な数のパラメータは、トレーニング中に大きな記憶障害を引き起こします。既存のメモリ効率のアルゴリズムは、特異値分解プロジェクションや重み凍結のような技術に依存していることが多い。本稿では,グラディエントウェーブレット変換(GWT)と呼ばれる新しい解を提案する。
論文参考訳（メタデータ） (2025-01-13T11:35:09Z)
Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition [93.98343072306619]
本研究では,高次テンソル重み付きニューラルネットワークの効率的なトレーニング手法であるNavier-GaLoreを提案する。様々なPDEタスクの中で、Navier-GaLoreはメモリ節約を実現し、最大75%のメモリ使用量を削減している。
論文参考訳（メタデータ） (2025-01-04T20:51:51Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文参考訳（メタデータ） (2023-07-05T06:05:36Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)
Optimizing Memory Placement using Evolutionary Graph Reinforcement Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。また,NNP-Iコンパイラと比較して28～78%の高速化を実現している。
論文参考訳（メタデータ） (2020-07-14T18:50:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。