論文の概要: Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning
- arxiv url: http://arxiv.org/abs/2506.09501v1
- Date: Wed, 11 Jun 2025 08:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.743672
- Title: Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning
- Title(参考訳): 私にFP32を与えるか、死を与えるか? 再現可能な推論への挑戦と解決策
- Authors: Jiayi Yuan, Hao Li, Xinheng Ding, Wenya Xie, Yu-Jhe Li, Wentian Zhao, Kun Wan, Jing Shi, Xia Hu, Zirui Liu,
- Abstract要約: 本研究は,数値精度が大規模言語モデルの推論に与える影響について,最初の系統的研究を行った。
我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインであるLayerCastを開発した。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
- 参考スコア(独自算出の注目度): 54.970571745690634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are now integral across various domains and have demonstrated impressive performance. Progress, however, rests on the premise that benchmark scores are both accurate and reproducible. We demonstrate that the reproducibility of LLM performance is fragile: changing system configuration such as evaluation batch size, GPU count, and GPU version can introduce significant difference in the generated responses. This issue is especially pronounced in reasoning models, where minor rounding differences in early tokens can cascade into divergent chains of thought, ultimately affecting accuracy. For instance, under bfloat16 precision with greedy decoding, a reasoning model like DeepSeek-R1-Distill-Qwen-7B can exhibit up to 9% variation in accuracy and 9,000 tokens difference in response length due to differences in GPU count, type, and evaluation batch size. We trace the root cause of this variability to the non-associative nature of floating-point arithmetic under limited numerical precision. This work presents the first systematic investigation into how numerical precision affects reproducibility in LLM inference. Through carefully controlled experiments across various hardware, software, and precision settings, we quantify when and how model outputs diverge. Our analysis reveals that floating-point precision -- while critical for reproducibility -- is often neglected in evaluation practices. Inspired by this, we develop a lightweight inference pipeline, dubbed LayerCast, that stores weights in 16-bit precision but performs all computations in FP32, balancing memory efficiency with numerical stability. Code is available at https://github.com/nanomaoli/llm_reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、さまざまなドメインで統合されており、素晴らしいパフォーマンスを示している。
しかし、進捗はベンチマークスコアが正確かつ再現可能であるという前提に基づいている。
評価バッチサイズ,GPUカウント,GPUバージョンといったシステム構成の変更は,生成した応答に大きな違いをもたらす可能性がある。
この問題は特に推論モデルにおいて顕著であり、初期トークンの小さな丸めの違いは思考の分岐連鎖にカスケードし、最終的には精度に影響を及ぼす。
例えば、greedyデコーディングによるbfloat16の精度の下では、DeepSeek-R1-Distill-Qwen-7Bのような推論モデルは、GPUカウント、タイプ、評価バッチサイズの違いによって、最大9%の精度と9000トークンのレスポンス長の違いを示すことができる。
この変動の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。
本研究は,LLM推論における数値精度が再現性に与える影響について,最初の系統的研究を行った。
様々なハードウェア、ソフトウェア、精度設定を綿密に制御した実験により、モデル出力がいつ、どのように分岐するかを定量化する。
我々の分析によると、再現性に批判的な浮動小数点精度は、評価プラクティスでは無視されることが多い。
これは16ビットの精度で重みを格納するが、FP32では全ての計算を行い、メモリ効率と数値安定性のバランスをとる。
コードはhttps://github.com/nanomaoli/llm_reproducibilityで入手できる。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Fixflow: A Framework to Evaluate Fixed-point Arithmetic in Light-Weight
CNN Inference [0.0]
畳み込みニューラルネットワーク(CNN)は、IoTアプリケーションのリソース制約されたデバイスで広く利用されている。
本稿では,異なる固定点ハードウェアユニットがCNN推定精度に与える影響について検討する。
論文 参考訳(メタデータ) (2023-02-19T12:48:52Z) - Numerical Stability of DeepGOPlus Inference [1.5361702135159845]
畳み込みニューラルネットワーク(CNN)は現在、最も広く使われているディープニューラルネットワーク(DNN)アーキテクチャの1つである。
最近の研究は、DNNにおける数値安定性の課題を強調しており、ノイズ注入に対する既知の感度にも関係している。
本稿では,タンパク質機能を予測するCNNであるDeepGOPlusについて検討する。
論文 参考訳(メタデータ) (2022-12-13T03:52:14Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。