論文の概要: The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators
- arxiv url: http://arxiv.org/abs/2603.08741v1
- Date: Thu, 26 Feb 2026 05:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.512841
- Title: The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators
- Title(参考訳): AetherFloatファミリー:AIアクセラレータのためのブロックスケールフリーの4次元浮動小数点浮動小数点アーキテクチャ
- Authors: Keita Morisaki,
- Abstract要約: IEEE 754 浮動小数点標準は現代のコンピューティングの基盤である。
8ビットフォーマットへのシフトは、新しいハードウェアペナルティを導入した。
AetherFloat Familyはパラメータ化可能なアーキテクチャ代替品である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The IEEE 754 floating-point standard is the bedrock of modern computing, but its structural requirements -- a hidden leading bit, Base-2 bit-level normalization, and Sign-Magnitude encoding -- impose significant silicon area and power overhead in massively parallel Neural Processing Units (NPUs). Furthermore, the industry's recent shift to 8-bit formats (e.g., FP8 E4M3, OCP MX formats) has introduced a new hardware penalty: the strict necessity of Block-Scaling (AMAX) logic to prevent out-of-bound Large Language Model (LLM) activations from overflowing and degrading accuracy. The AetherFloat Family is a parameterizable architectural replacement designed from first principles for Hardware/Software Co-Design in AI acceleration. By synthesizing Lexicographic One's Complement Unpacking, Quad-Radix (Base-4) Scaling, and an Explicit Mantissa, AetherFloat achieves zero-cycle native integer comparability, branchless subnormal handling, and a verified 33.17% area, 21.99% total power, and 11.73% critical path delay reduction across the multiply-accumulate (MAC) unit. Instantiated as AetherFloat-8 (AF8), the architecture relies on a purely explicit 3-bit mantissa. Combined with Base-4 scaling, AF8 delivers a substantially wider dynamic range, acting as a ``Block-Scale-Free'' format for inference that circumvents dynamic scaling microarchitecture. Finally, a novel Vector-Shared 32-bit Galois Stochastic Rounding topology bounds precision variance while neutralizing the vanishing gradients that plague legacy formats. While AF16 serves as a near-lossless bfloat16 replacement via post-training quantization, AF8 is designed as a QAT-first inference format: its Block-Scale-Free property eliminates dynamic AMAX hardware at the cost of requiring quantization-aware fine-tuning for deployment.
- Abstract(参考訳): IEEE 754浮動小数点標準は現代のコンピューティングの基盤となっているが、その構造的要求 -- 隠れたリードビット、ベース2ビットレベルの正規化、サイン-マグニチュードエンコーディング -- は、非常に並列なニューラルプロセッシングユニット(NPU)において重要なシリコン領域と電力オーバーヘッドを課している。
さらに、業界が最近8ビットフォーマット(例えば、FP8 E4M3、OCP MXフォーマット)に移行したことにより、新しいハードウェアペナルティが導入された。
AetherFloat Familyは、AIアクセラレーションにおけるハードウェア/ソフトウェア共同設計の最初の原則から設計された、パラメータ化可能なアーキテクチャ代替品である。
Lexicographic One's Complement Unpacking, Quad-Radix (Base-4) Scaling, and an Explicit Mantissaを合成することにより、AetherFloatはゼロサイクルのネイティブ整数コンパラビリティ、分岐なしのサブノーマルハンドリング、および検証された33.17%の領域、21.99%のトータルパワー、11.73%のクリティカルパス遅延低減を実現している。
AetherFloat-8 (AF8) として知られるこのアーキテクチャは、純粋に明示的な3ビットマティッサに依存している。
Base-4スケーリングと組み合わせることで、AF8はより広いダイナミックレンジを提供し、動的スケーリングマイクロアーキテクチャを回避する推論のための ``Block-Scale-Free'' フォーマットとして機能する。
最後に、Vector-Shared 32-bit Galois Stochastic Rounding Topologyは、レガシーフォーマットを悩ませる消滅する勾配を中和しながら精度のばらつきを束縛する。
AF16は、トレーニング後の量子化による、ほぼロスレスなbfloat16の代替として機能するが、AF8はQATファーストの推論フォーマットとして設計されている。
関連論文リスト
- SPADE: A SIMD Posit-enabled compute engine for Accelerating DNN Efficiency [0.12314765641075437]
本研究では,多精度SIMD Posit-based multiplyaccumulate (MAC)アーキテクチャを統一したSPADEを提案する。
従来の単精度や浮動小数点SIMD MACとは異なり、SPADEはレギュラー対応のレーン融合SIMD Positデータパスを導入している。
Xilinx Virtex-7上のFPGA実装では、Posit (8,0) の45.13%のLUTと80%のスライス削減、Posit (16,1) と Posit (32,2) の最大28.44%と17.47%の改善がある。
論文 参考訳(メタデータ) (2026-01-24T03:38:11Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - DQT: Dynamic Quantization Training via Dequantization-Free Nested Integer Arithmetic [4.184808780116726]
本稿では,このボトルネックを取り除く新しいフレームワークである動的量子化トレーニング(DQT)を紹介する。
DQTの中核はネストされた整数表現であり、低い精度の値は高い精度のものにビット単位で埋め込まれている。
これによりDQTは、バックボーンネットワークの量子化のない静的混合精度の両方を可能にする最初の量子化フレームワークとなる。
論文 参考訳(メタデータ) (2025-08-07T07:31:48Z) - PointODE: Lightweight Point Cloud Learning with Neural Ordinary Differential Equations on Edge [0.8403582577557918]
本稿では,残差接続を持つブロックの連続的スタックに基づいて,ポイントクラウド特徴抽出のためのパラメータ効率のよいアーキテクチャを提案する。
PointODEは、合成データセットと実世界のデータセットの両方の最先端モデルと競合する精度を示す。
論文 参考訳(メタデータ) (2025-05-31T07:34:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Head-Free Lightweight Semantic Segmentation with Linear Transformer [21.38163906180886]
本稿では,適応周波数変換器(Adaptive Frequency Transformer)というセマンティックセグメンテーションのためのヘッドフリー軽量アーキテクチャを提案する。
並列アーキテクチャを採用して、デコーダを置き換える特定の学習可能なローカル記述としてプロトタイプ表現を活用する。
デコーダの除去は計算の大部分を圧縮するが、並列構造の精度は依然として低い計算資源によって制限されている。
論文 参考訳(メタデータ) (2023-01-11T18:59:46Z) - FP8 Formats for Deep Learning [49.54015320992368]
2つのエンコーディングからなる8ビット浮動小数点(FP8)バイナリインターチェンジフォーマットを提案する。
E4M3のダイナミックレンジは無限大を表現せず、NaNに対して1つのマティーサビットパターンしか持たないことによって拡張される。
16ビットのトレーニングセッションで達成した結果の質を効果的にマッチングし,FP8フォーマットが様々な画像および言語タスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T17:39:55Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。