Fugu-MT 論文翻訳(概要): How Low Can We Go: Trading Memory for Error in Low-Precision Training

論文の概要: How Low Can We Go: Trading Memory for Error in Low-Precision Training

arxiv url: http://arxiv.org/abs/2106.09686v1
Date: Thu, 17 Jun 2021 17:38:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-18 16:36:08.548434
Title: How Low Can We Go: Trading Memory for Error in Low-Precision Training
Title（参考訳）: どれくらい低いのか - 低精度トレーニングにおけるエラーのトレーディングメモリ
Authors: Chengrun Yang, Ziyang Wu, Jerry Chee, Christopher De Sa, Madeleine Udell
Abstract要約: 低精度算術は、少ないエネルギー、少ないメモリ、少ない時間でディープラーニングモデルを訓練する。私たちは貯金の代償を支払っている: 精度の低い方がラウンドオフエラーが大きくなり、したがって予測エラーが大きくなる可能性がある。私たちはメタラーニングのアイデアを借りて、メモリとエラーのトレードオフを学びます。
参考スコア（独自算出の注目度）: 52.94003953419242
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Low-precision arithmetic trains deep learning models using less energy, less memory and less time. However, we pay a price for the savings: lower precision may yield larger round-off error and hence larger prediction error. As applications proliferate, users must choose which precision to use to train a new model, and chip manufacturers must decide which precisions to manufacture. We view these precision choices as a hyperparameter tuning problem, and borrow ideas from meta-learning to learn the tradeoff between memory and error. In this paper, we introduce Pareto Estimation to Pick the Perfect Precision (PEPPP). We use matrix factorization to find non-dominated configurations (the Pareto frontier) with a limited number of network evaluations. For any given memory budget, the precision that minimizes error is a point on this frontier. Practitioners can use the frontier to trade memory for error and choose the best precision for their goals.
Abstract（参考訳）: 低精度算術は、少ないエネルギー、少ないメモリ、少ない時間でディープラーニングモデルを訓練する。しかし、私たちは貯金の代償を支払っている: 精度が低いとラウンドオフエラーが大きくなり、したがって予測エラーが大きくなる可能性がある。アプリケーションが成長するにつれて、ユーザは新しいモデルのトレーニングに使用する精度を選択する必要があり、チップメーカーは製造する精度を決定する必要がある。これらの精度選択をハイパーパラメータチューニング問題として捉え,メモリとエラーのトレードオフを学ぶためにメタラーニングからアイデアを借用する。本稿では,PEPPP(Pick the Perfect Precision)に対するPareto Estimationを提案する。ネットワーク評価が限られている非支配的な構成(パレートフロンティア)を見つけるのに行列分解を用いる。任意のメモリ予算に対して、エラーを最小限にする精度は、このフロンティアのポイントです。実践者は、フロンティアを使ってメモリをエラーと交換し、目標に対して最適な精度を選択することができます。

関連論文リスト

Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models [27.730213115659986]
言語モデル(LLM)はしばしば、推論におけるメモリコストとレイテンシを低減するために、精度を下げるために量子化される。従来の微調整手法ではバックプロパゲーションが必要であり、低精度設定ではエラーが発生しやすい。本稿では,低精度フォワードパスを用いた微調整LDMのための量子ゼロオーダー(Quantized Zeroth-Order)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T22:20:31Z)
Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
校正誤差と校正誤差は,訓練中に同時に最小化されないことを示す。我々は,早期停止とハイパーパラメータチューニングのための新しい指標を導入し,トレーニング中の改善誤差を最小限に抑える。本手法は,任意のアーキテクチャとシームレスに統合し,多様な分類タスクにおける性能を継続的に向上する。
論文参考訳（メタデータ） (2025-01-31T15:03:54Z)
Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文参考訳（メタデータ） (2024-11-07T00:10:10Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Collage: Light-Weight Low-Precision Strategy for LLM Training [21.190363633580233]
低精度浮動小数点は、トレーニング過程における臨界点における誤差が適切に補償されている場合、十分に機能する可能性があると我々は主張する。本論文では,マルチコンポーネントフロート表現を低精度で利用し,数値誤差を考慮した演算を高精度に行うコラージュを提案する。提案手法は半精度(16$-bit 浮動小数点)のような一般的な低精度で動作し、8$-bit などのより低い精度で動作するように自然に拡張できる。
論文参考訳（メタデータ） (2024-05-06T16:55:30Z)
Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文参考訳（メタデータ） (2023-07-27T17:42:06Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Training Normalizing Flows with the Precision-Recall Divergence [73.92251251511199]
特定精度リコールトレードオフを達成することは、em PR-divergencesと呼ぶ家族からの-divergencesの最小化に相当することを示す。本稿では, 正規化フローをトレーニングして, 偏差を最小化し, 特に, 所与の高精度リコールトレードオフを実現する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2023-02-01T17:46:47Z)
Training with Mixed-Precision Floating-Point Assignments [8.5323697848377]
より少ないメモリを使用する畳み込みニューラルネットワークの精度割当を生成する。 CIFAR-10, CIFAR-100, ImageNet上で, 畳み込みネットワークを訓練し, 画像分類タスクの評価を行った。
論文参考訳（メタデータ） (2023-01-31T08:01:35Z)
Towards Explainable Bit Error Tolerance of Resistive RAM-Based Binarized Neural Networks [7.349786872131006]
抵抗性RAM(RRAM)のような不揮発性メモリは、エネルギー効率が向上するストレージである。バイナリニューラルネットワーク(BNN)は、精度を損なうことなく、ある種のエラーを許容することができる。 BNNのビットエラー耐性(BET)は、トレーニング中にウェイトサインを反転させることによって達成できる。
論文参考訳（メタデータ） (2020-02-03T17:38:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。