Fugu-MT 論文翻訳(概要): Microscaling Data Formats for Deep Learning

論文の概要: Microscaling Data Formats for Deep Learning

arxiv url: http://arxiv.org/abs/2310.10537v2
Date: Tue, 17 Oct 2023 20:07:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 12:40:19.497380
Title: Microscaling Data Formats for Deep Learning
Title（参考訳）: ディープラーニングのためのマイクロスケーリングデータフォーマット
Authors: Bita Darvish Rouhani, Ritchie Zhao, Ankit More, Mathew Hall, Alireza Khodamoradi, Summer Deng, Dhruv Choudhary, Marius Cornea, Eric Dellinger, Kristof Denolf, Stosic Dusan, Venmugil Elango, Maximilian Golub, Alexander Heinecke, Phil James-Roxby, Dharmesh Jani, Gaurav Kolhe, Martin Langhammer, Ada Li, Levi Melnick, Maral Mesmakhosroshahi, Andres Rodriguez, Michael Schulte, Rasoul Shafipour, Lei Shao, Michael Siu, Pradeep Dubey, Paulius Micikevicius, Maxim Naumov, Colin Verrilli, Ralph Wittig, Eric Chung
Abstract要約: 狭いビット幅のデータフォーマットは、現代のディープラーニングアプリケーションの計算コストとストレージコストを削減する鍵となる。本稿では,ブロック単位のスケーリング係数と,個々の要素に対する狭い浮動小数点型と整数型を組み合わせたマイクロスケーリング(MX)データ形式について検討する。
参考スコア（独自算出の注目度）: 29.842754060005863
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Narrow bit-width data formats are key to reducing the computational and storage costs of modern deep learning applications. This paper evaluates Microscaling (MX) data formats that combine a per-block scaling factor with narrow floating-point and integer types for individual elements. MX formats balance the competing needs of hardware efficiency, model accuracy, and user friction. Empirical results on over two dozen benchmarks demonstrate practicality of MX data formats as a drop-in replacement for baseline FP32 for AI inference and training with low user friction. We also show the first instance of training generative language models at sub-8-bit weights, activations, and gradients with minimal accuracy loss and no modifications to the training recipe.
Abstract（参考訳）: 狭いビット幅のデータフォーマットは、現代のディープラーニングアプリケーションの計算コストとストレージコストを削減する鍵となる。本稿では,ブロック単位のスケーリング係数と狭い浮動小数点数と整数型を組み合わせたマイクロスケーリング(mx)データ形式を評価する。 mxフォーマットは、ハードウェア効率、モデル精度、ユーザ摩擦といった競合するニーズとバランスをとる。 2ダース以上のベンチマークにおける実証的な結果は、AI推論と低ユーザ摩擦によるトレーニングのためのベースラインFP32のドロップイン代替として、MXデータフォーマットの実用性を示している。また,8ビット以下の重み,アクティベーション,勾配で生成言語モデルをトレーニングする最初の事例を示す。

関連論文リスト

Characterization and Mitigation of Training Instabilities in Microscaling Formats [6.025438902954768]
大規模言語モデルのトレーニングは、高価な計算処理です。次世代ハードウェアアクセラレータは、より低い精度の算術形式をサポートするようになった。モデル学習におけるブロックスケール精度フォーマットの課題と実現可能性について検討する。
論文参考訳（メタデータ） (2025-06-25T18:25:08Z)
Recipes for Pre-training LLMs with MXFP8 [0.0]
精度のスケーリングは、精度を犠牲にすることなくGPU効率を改善するための魅力的なテクニックとして現れている。 MX形式は、他の縮小精度表現に比べて数値安定性が向上する。 15Tトークン上の8Bモデルに対して,MXFP8の事前学習を成功させるラウンド・ツー・インフィニティを用いたラウンド・ツー・インフィニティ(ラウンド・トゥ・インフィニティ)の改良手法を提案する。
論文参考訳（メタデータ） (2025-05-30T21:08:15Z)
PRIOT: Pruning-Based Integer-Only Transfer Learning for Embedded Systems [1.4779899760345436]
我々は、重みを更新するのではなく、選択したエッジを刈り取ることにより、ネットワークを最適化するPRIOTという新しいトレーニング手法を提案する。 Raspberry Pi PicoにPRIOTとPRIOT-Sを実装し,その精度と計算コストを評価する。 PRIOT-Sはメモリフットプリントを最小限の精度で削減するのに対し,PRIOT-Sは既存の手法に比べて8.08～33.75ポイントの精度向上を図っている。
論文参考訳（メタデータ） (2025-03-21T05:07:57Z)
Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文参考訳（メタデータ） (2025-01-05T02:30:41Z)
Direct Quantized Training of Language Models with Stochastic Rounding [12.028887152979046]
様々な大きさのLLaMA構造化モデルの実験結果から,3次値に制約された場合でも,低精度の重み付きトレーニングが実現可能であることが示唆された。我々のモデルは、FP32から低メモリ環境に移行する際の性能劣化を最小限に抑えながら、精度のスケーリングとメモリ削減に頑健なままです。
論文参考訳（メタデータ） (2024-12-06T05:41:11Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-05T00:42:35Z)
Incrementally-Computable Neural Networks: Efficient Inference for Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-07-27T16:30:27Z)
Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文参考訳（メタデータ） (2023-05-25T17:18:55Z)
8-bit Numerical Formats for Deep Neural Networks [1.304892050913381]
本研究では,8ビット浮動小数点数形式を用いて,トレーニングと推論の両方にアクティベーション,重み,勾配を求める。実験により、これらの低精度フォーマットの適切な選択は、画像分類と言語処理のための様々なディープラーニングモデルに対して、精度を劣化させることなく、高速なトレーニングと消費電力削減を可能にすることが示された。
論文参考訳（メタデータ） (2022-06-06T21:31:32Z)
FairIF: Boosting Fairness in Deep Learning via Influence Functions with Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。 FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文参考訳（メタデータ） (2022-01-15T05:14:48Z)
PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit [5.534626267734822]
本研究は、ポジットを用いた深層畳み込みニューラルネットワークの訓練の可能性を評価することを目的とする。エンドツーエンドのトレーニングと推論にシミュレートされたポジットとクィアを使用するソフトウェアフレームワークが開発された。その結果、8ビットポジットはトレーニング中に32ビットフロートを置換でき、その結果の損失や精度に悪影響を及ぼさないことが示唆された。
論文参考訳（メタデータ） (2021-04-30T19:30:37Z)
All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and Memory-Efficient Inference of Deep Neural Networks [2.294014185517203]
本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
論文参考訳（メタデータ） (2021-04-15T09:37:23Z)
Revisiting BFloat16 Training [30.99618783594963]
最先端の汎用的低精度トレーニングアルゴリズムでは、16ビットと32ビットの精度が混在している。ディープラーニングアクセラレータは、16ビットと32ビットの浮動小数点ユニットの両方をサポートせざるを得ない。
論文参考訳（メタデータ） (2020-10-13T05:38:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。