Fugu-MT 論文翻訳(概要): Cut Your Losses in Large-Vocabulary Language Models

論文の概要: Cut Your Losses in Large-Vocabulary Language Models

arxiv url: http://arxiv.org/abs/2411.09009v1
Date: Wed, 13 Nov 2024 20:30:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.490485
Title: Cut Your Losses in Large-Vocabulary Language Models
Title（参考訳）: 大語彙言語モデルにおける損失の削減
Authors: Erik Wijmans, Brody Huval, Alexander Hertzberg, Vladlen Koltun, Philipp Krähenbühl,
Abstract要約: 我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。 CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
参考スコア（独自算出の注目度）: 102.6981011879656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As language models grow ever larger, so do their vocabularies. This has shifted the memory footprint of LLMs during training disproportionately to one single layer: the cross-entropy in the loss computation. Cross-entropy builds up a logit matrix with entries for each pair of input tokens and vocabulary items and, for small models, consumes an order of magnitude more memory than the rest of the LLM combined. We propose Cut Cross-Entropy (CCE), a method that computes the cross-entropy loss without materializing the logits for all tokens into global memory. Rather, CCE only computes the logit for the correct token and evaluates the log-sum-exp over all logits on the fly. We implement a custom kernel that performs the matrix multiplications and the log-sum-exp reduction over the vocabulary in flash memory, making global memory consumption for the cross-entropy computation negligible. This has a dramatic effect. Taking the Gemma 2 (2B) model as an example, CCE reduces the memory footprint of the loss computation from 24 GB to 1 MB, and the total training-time memory consumption of the classifier head from 28 GB to 1 GB. To improve the throughput of CCE, we leverage the inherent sparsity of softmax and propose to skip elements of the gradient computation that have a negligible (i.e., below numerical precision) contribution to the gradient. Experiments demonstrate that the dramatic reduction in memory consumption is accomplished without sacrificing training speed or convergence.
Abstract（参考訳）: 言語モデルが大きくなるにつれて、語彙も大きくなる。これにより、トレーニング中にLLMのメモリフットプリントが不均等に1つの単一の層、すなわち損失計算におけるクロスエントロピーに移行した。クロスエントロピーは、各入力トークンと語彙項目のエントリでロジット行列を構築し、小さなモデルでは、LLMの他の部分よりも桁違いに多くのメモリを消費する。我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。むしろ、CCEは正しいトークンのロジットのみを計算し、オンザフライですべてのロジットに対してlog-sum-expを評価する。そこで我々は, メモリ上の語彙に対する行列乗算と対数-sum-expの削減を行うカスタムカーネルを実装し, クロスエントロピー計算のグローバルメモリ消費を無視する。これは劇的な効果がある。 Gemma 2 (2B)モデルを例として、CCEは損失計算のメモリフットプリントを24GBから1MBに減らし、分類器ヘッドの総トレーニング時間メモリ消費を28GBから1GBに減らした。 CCEのスループットを向上させるために,ソフトマックスの性質的空間性を活用し,勾配に無視できる(数値精度以下)勾配計算の要素を省略することを提案する。実験により、メモリ消費の劇的な削減は、トレーニング速度や収束を犠牲にすることなく達成されることが示された。

関連論文リスト

Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。我々は,MEMOがMegatron-LMやDeepSpeedと比較して平均2.42倍,2.26倍のMFUを達成することを示す。
論文参考訳（メタデータ） (2024-07-16T18:59:49Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Layered gradient accumulation and modular pipeline parallelism: fast and efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文参考訳（メタデータ） (2021-06-04T19:21:49Z)
Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文参考訳（メタデータ） (2020-07-21T15:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。