論文の概要: FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail
- arxiv url: http://arxiv.org/abs/2606.06510v1
- Date: Thu, 28 May 2026 03:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.664227
- Title: FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail
- Title(参考訳): FP8は必要なものすべて(その1):ハードウェアFP64をHPC聖杯に
- Authors: Satoshi Matsuoka,
- Abstract要約: 従来のHPCのドグマは、ネイティブハードウェアのFP64シリコンは二重精度シミュレーションの「ホット・ゲイル」であるとしている。
B300世代以降のAI最適化GPUでは、豊富なFP8スループットと中国のRemainder TheoremベースのOzaki IIが、標準HPCカーネルスペクトル全体にわたって完全なFP64精度でメモリルーフ実行を回復する。
- 参考スコア(独自算出の注目度): 1.5752282186775997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.
- Abstract(参考訳): 従来のHPCのドグマは、ネイティブハードウェアのFP64シリコンが科学計算の既約基盤であり、二重精度シミュレーションの「ホット・ゲイル」であると主張している。
B300世代以降のAI最適化GPUでは、豊富なFP8テンソルスループットと中国のRemainder TheoremベースのOzaki Scheme IIが、標準HPCカーネルスペクトル全体にわたって完全なFP64精度でメモリルーフ実行を回復する。
NVIDIAのBlackwell Ultra(B300)はネイティブFP64を1.3TFLOPS(B200の31倍のレグレッション)に崩壊させ、メモリバウンドカーネル(SpMV、GEMV、ステンシル)さえも計算バウンドにする。
私たちは4つの貢献をします。
第一に、統合解析モデルであるTensor-Memory Equilibrium (TME) モデル、計算乗算器アルファ、帯域乗算器ベータ、再構成遅延ガンマによるRooflineの拡張。
第2に、レジスタレベルの融合をbeta -> 1を駆動するメカニズムとして認識し、エミュレーションをメモリ壁の後方で本質的に自由にする。
第3に,大崎IIヴォールトがFP64を1 TFLOPSネイティブフロアから500 TFLOPS (B300) および400 TFLOPS (Rubin R200) にエミュレートし,B200 のネイティブ FP64 天井さえも計算系で桁違いに上回った。
第4に、Ozaki IIはH100ベースラインに対して、B300ネイティブFP64が課す50倍のレグレッションに対して、調査対象のワークロード毎にH100をマッチまたは超過します。
既存のINT32パイプのKulisch固定点再構成とFP32+Kahan削減を併用して,B300上のすべてのカーネルクラスがフルFP64でメモリ屋根に到達した。
FP8とOzaki IIとKurischの脱出経路は、すべてHPCの製作に必要なものであり、ネイティブのFP64シリコンは、もはやそれが取るべき聖杯ではない。
関連論文リスト
- Holding the FP8 Quality Ceiling at 8-Bit Weights and Activations: INT8 and GGUF Post-Training Quantization of Ideogram 4.0 for Consumer GPUs [0.08599681538174887]
トレーニング後の量子化により、コンシューマGPU上で大きなテキスト間拡散トランスフォーマーを実行することができるが、ハードウェア固有のトレードオフを直接測定することはめったにない。
Ideogram 4.0 - 9.3Bフローマッチング拡散変圧器(DiT)を1ストリーム34層バックボーンの2つの分離重み付きコピーとして出荷する。
8ビットの量子化が役立ち、そうでない場合を特徴付けるので、Ampere の高速化は INT8 カーネルの融合を待ちます。
論文 参考訳(メタデータ) (2026-06-10T16:19:49Z) - Scaling Neural Network Verification with Tensor Parallelism and Fully Sharded Data Parallelism [0.0]
形式的ニューラルネットワーク検証は、実際にはGPUメモリによって境界付けられている。
大規模なモデルトレーニングのために開発された2つのテクニックをauto_LiRPA / $,$-CROWN 検証フレームワークに適用する。
フルシャードデータ並列(FSDP)シャードは、層ごとのAllGatherで重量行列のみをシャードし、単一GPUベースラインとビット単位で同一のバウンドを生成する。
論文 参考訳(メタデータ) (2026-06-08T11:56:29Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity [86.71343842875878]
NVIDIAの2:4 Sparse Coresは2倍のスループットを提供するが、厳しい50%のプルーニングを要求する。
Milder $(2N-2):2N$パターンは正確さを維持しながらハードウェアサポートを受けない。
Sparse Coreアクセラレーションをアンロックする最初のシステムであるSlideSparseを紹介する。
論文 参考訳(メタデータ) (2026-03-05T14:49:16Z) - Hybrid Gated Flow (HGF): Stabilizing 1.58-bit LLMs via Selective Low-Rank Correction [0.766310831583367]
Hybrid Gated Flow (HGF) は1.58ビットの3進バックボーンと学習可能な低ランクのFP16修正パスを結合したデュアルストリームアーキテクチャである。
我々は,HGF 5.4 が BitNet の 1.0294 と比較して 0.9306 のバリデーション損失を達成し,純三次量子化と FP16 ベースライン間の品質ギャップの約55% を回復することを示した。
論文 参考訳(メタデータ) (2026-02-05T03:47:17Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth [0.0]
Unsloth上で3.5倍のスピードアップを実現したオープンソースのトレーニングフレームワークであるCentralsを紹介します。
オンラインのソフトマックスの正しさ、FlashAttention IO complexity O(N2 d2 M-1)、LoRA+学習速度勾配近似など、完全な数学的基礎を提供する。
論文 参考訳(メタデータ) (2026-01-06T00:00:55Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。