Fugu-MT 論文翻訳(概要): CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization

論文の概要: CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization

arxiv url: http://arxiv.org/abs/2405.14377v2
Date: Mon, 02 Dec 2024 09:48:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.601379
Title: CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization
Title（参考訳）: CoMERA:ランク適応型テンソル最適化による計算とメモリ効率のトレーニング
Authors: Zi Yang, Ziyue Liu, Samridhi Choudhary, Xinfeng Xie, Cao Gao, Siegfried Kunzmann, Zheng Zhang,
Abstract要約: LLMやDLRMといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。 CoMERAは、多目的最適化の定式化により、ランク適応テンソル圧縮(pre)訓練を実現する。 CoMERAは、トレーニングのエポック1回あたり2ドル、メモリ効率がGaLoreよりも高い9ドルだ。
参考スコア（独自算出の注目度）: 9.826264204082095
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Training large AI models such as LLMs and DLRMs costs massive GPUs and computing time. The high training cost has become only affordable to big tech companies, meanwhile also causing increasing concerns about the environmental impact. This paper presents CoMERA, a Computing- and Memory-Efficient training method via Rank-Adaptive tensor optimization. CoMERA achieves rank-adaptive tensor-compressed (pre)-training via a multi-objective optimization formulation and improves the training to provide both a high compression ratio and excellent accuracy in the training process. Our optimized numerical computation (e.g., optimized tensorized embedding and tensor-network contractions) and GPU implementation eliminate part of the run-time overhead in the tensorized training on GPU. This leads to, for the first time, $2-3\times$ speedup per training epoch compared with standard training. CoMERA also outperforms the recent GaLore in terms of both memory and computing efficiency. Specifically, CoMERA is $2\times$ faster per training epoch and $9\times$ more memory-efficient than GaLore on a tested six-encoder transformer with single-batch training. Our method also shows $\sim 2\times$ speedup than standard pre-training on a BERT-like code-generation LLM while achieving $4.23\times$ compression ratio in pre-training. With further HPC optimization, CoMERA may reduce the pre-training cost of many other LLMs. An implementation of CoMERA is available at https://github.com/ziyangjoy/CoMERA.
Abstract（参考訳）: LLMやDLRMといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。高いトレーニングコストは、大企業にとって手頃な価格になる一方、環境への影響に対する懸念も高まっている。本稿では,ランク適応テンソル最適化による計算とメモリ効率の訓練手法であるCoMERAを提案する。 CoMERAは、多目的最適化定式化によるランク適応テンソル圧縮(pre)訓練を実現し、高い圧縮比とトレーニングプロセスの精度の両方を提供する訓練を改善する。最適化された数値計算(例えば、最適化されたテンソル化埋め込みとテンソルネットワークの収縮)とGPUの実装により、GPU上のテンソル化トレーニングにおける実行時のオーバーヘッドの一部を排除した。これにより、通常のトレーニングと比較すると、トレーニング1時間あたりのスピードアップが2～3ドル初となる。 CoMERAは、メモリとコンピューティングの効率の両面で、最近のGaLoreを上回っている。具体的には、CoMERAは1回のバッチトレーニングでテストされた6エンコーダートランスフォーマーでGaLoreよりも高速で2ドル99セント、メモリ効率は9ドル99セントだ。また,BERTライクなコード生成 LLM の標準事前学習よりも$\sim 2\times$ の高速化を実現し,プレトレーニングでは$4.23\times$ の圧縮比を実現した。さらなるHPC最適化により、CoMERAは他の多くのLLMの事前学習コストを削減できる。 CoMERAの実装はhttps://github.com/ziyangjoy/CoMERAで公開されている。

関連論文リスト

Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
PaCA: Partial Connection Adaptation for Efficient Fine-Tuning [11.379377511067732]
モデルにアダプタ層を導入する代わりに、事前訓練した重み内でランダムに選択された部分接続を微調整するPAAを提案する。 LoRAと比較して、PaCAはトレーニング時間を22%削減し、メモリ使用量は16%削減した。
論文参考訳（メタデータ） (2025-02-28T13:30:10Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement [47.89758553708932]
textbfThinkCoderは、徹底的な探索と最適な精錬を組み合わせたフレームワークです。探索フェーズは、潜在的な解を探すことによって解空間を多様化し、続いて精度を高める精製フェーズが続く。テスト時間計算のオーバーヘッドを最小化するために、Reinforced Self-Training (ReST) を用いた優先駆動最適化を導入する。
論文参考訳（メタデータ） (2024-12-30T07:02:15Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。 COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。 COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文参考訳（メタデータ） (2024-10-25T05:59:30Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
Breaking MLPerf Training: A Case Study on Optimizing BERT [9.486916730173661]
本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
論文参考訳（メタデータ） (2024-02-04T11:12:17Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Parameter-efficient is not sufficient: Exploring Parameter, Memory, and Time Efficient Adapter Tuning for Dense Predictions [9.068569788978854]
パラメータ効率変換学習 (PETL) 法は, 訓練可能なパラメータの少ない下流タスクに適応する上で, 有望な性能を示した。コンピュータビジョン(CV)におけるPETL法は、計算コストが高く、訓練中に大量のメモリと時間コストを必要とする。 MathrmE3VA$は62.2%のトレーニングメモリと26.2%のトレーニング時間を節約できる。
論文参考訳（メタデータ） (2023-06-16T09:54:07Z)
RAF: Holistic Compilation for Deep Learning Model Training [17.956035630476173]
本稿では,学習のための深層学習コンパイラであるRAFについて述べる。既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。 RAFは、パフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
論文参考訳（メタデータ） (2023-03-08T17:51:13Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文参考訳（メタデータ） (2022-03-11T19:05:42Z)
ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。 ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文参考訳（メタデータ） (2021-10-11T14:45:00Z)
[Reproducibility Report] Rigging the Lottery: Making All Tickets Winners [1.6884611234933766]
スパーストレーニングアルゴリズムである$textitRigL$は、既存の密集型トレーニング技術のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする、と主張している。 Pytorchのスクラッチから$textitRigL$を実装し、報告された値の0.1%以内でCIFAR-10のパフォーマンスを再現する。
論文参考訳（メタデータ） (2021-03-29T17:01:11Z)
Large-Scale Training System for 100-Million Classification at Alibaba [43.58719630882661]
極度の分類は深層学習に欠かせない話題になっています最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
論文参考訳（メタデータ） (2021-02-09T06:53:31Z)
FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。 FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文参考訳（メタデータ） (2020-12-24T05:24:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。