論文の概要: Normalized Architectures are Natively 4-Bit
- arxiv url: http://arxiv.org/abs/2605.06067v1
- Date: Thu, 07 May 2026 11:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.738775
- Title: Normalized Architectures are Natively 4-Bit
- Title(参考訳): 標準化されたアーキテクチャはネイティブに4ビット
- Authors: Maxim Fishman, Brian Chmiel, Ron Banner, Daniel Soudry, Boris Ginsburg,
- Abstract要約: 重みと隠れ表現を単位超球面に制限するアーキテクチャであるnGPTは、本質的に低精度算術よりも堅牢である。
本手法は,最大3B/30Bパラメータの1.2B密度モデルとハイブリッド(Mamba-Transformer)MoEモデルの両方で検証する。
- 参考スコア(独自算出の注目度): 49.13186675123547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models at 4-bit precision is critical for efficiency. We show that nGPT, an architecture that constrains weights and hidden representations to the unit hypersphere, is inherently more robust to low-precision arithmetic. This removes the need for interventions-such as applying random Hadamard transforms and performing per-tensor scaling calculations-to preserve model quality, and it enables stable end-to-end NVFP4 training. We validate this approach on both a 1.2B dense model and hybrid (Mamba-Transformer) MoE models of up to 3B/30B parameters. We trace this robustness to the dot product: while quantization noise remains largely uncorrelated in both standard and normalized architectures, the signal behaves differently. In nGPT, the hypersphere constraint enhances weak positive correlations among the element-wise products, leading to a constructive accumulation of the signal across the hidden dimension while the noise continues to average out. This yields a higher effective signal-to-noise ratio and a flatter loss landscape, with the effect strengthening as the hidden dimension grows, suggesting increasing advantages at scale. A reference implementation is available at https://github.com/anonymous452026/ngpt-nvfp4
- Abstract(参考訳): 4ビットの精度で大規模言語モデルを訓練することは、効率性にとって重要である。
重みと隠蔽表現を単位超球面に制約するアーキテクチャであるnGPTは、本質的に低精度演算よりも堅牢であることを示す。
これにより、ランダムなアダマール変換の適用や、モデル品質を維持するためのテンソル毎のスケーリング計算といった介入の必要性がなくなり、安定したエンドツーエンドのNVFP4トレーニングが可能になる。
本手法は,最大3B/30Bパラメータの1.2B密度モデルとハイブリッド(Mamba-Transformer)MoEモデルの両方で検証する。
量子化ノイズは、標準アーキテクチャと正規化アーキテクチャの両方でほとんど関係がないが、信号は異なる振る舞いをする。
nGPTでは、ハイパースフィア制約は要素単位の積間の弱い正の相関を増大させ、ノイズが平均出力し続ける間、隠れた次元にわたって信号が構築的に蓄積される。
これにより、より効果的な信号対雑音比と、より平坦なロスランドスケープが得られ、隠れた次元が大きくなるにつれて効果が強化され、規模が大きくなることが示唆される。
リファレンス実装はhttps://github.com/anonymous452026/ngpt-nvfp4で公開されている。
関連論文リスト
- BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - NoiseFormer -- Noise Diffused Symmetric Attention Transformer [0.0]
本稿では,モデルの性能を向上させるため,ノイズ拡散対称アテンション変換器という新しい統一モデルアーキテクチャを提案する。
提案モデルはGPT2ベースモデルに基づいて検証され,その結果は平滑なSymmetric attentionとGPT2ベースモデルの間の性能向上を反映する。
論文 参考訳(メタデータ) (2026-01-10T14:10:48Z) - Unifying Sign and Magnitude for Optimizing Deep Vision Networks via ThermoLion [0.0]
現在のパラダイムは、情報チャネルドリフトパラメータに静的な妥協を課している。
我々は「低次元」探索モデルと「低次元」動的アライメントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-01T17:04:17Z) - Optimized Minimal 4D Gaussian Splatting [50.29519144753797]
4D Gaussian Splattingは動的シーン表現の新しいパラダイムとして登場し、複雑な動きを持つシーンのリアルタイムレンダリングを可能にした。
何百万人ものガウス人が高忠実度再構築を必要としているため、ストレージオーバーヘッドの大きな課題に直面している。
OMG4は、4次元ガウス模型を忠実に表現できる有能なガウスのコンパクトな集合を構成するフレームワークである。
論文 参考訳(メタデータ) (2025-10-04T16:11:13Z) - Precise Bayesian Neural Networks [0.0]
我々は,現代的な正規化アーキテクチャに適合し,精度を犠牲にすることなくキャリブレーションを改善する軽量で実装可能な変分ユニットを開発した。
簡単に言えば、変分後部をネットワーク固有の幾何学と整合させることで、BNNは同時に原理化され、実用的で、正確である。
論文 参考訳(メタデータ) (2025-06-24T15:42:00Z) - Hyperspherical Normalization for Scalable Deep Reinforcement Learning [57.016639036237315]
SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-21T08:17:24Z) - The random coupled-plaquette gauge model and the surface code under circuit-level noise [1.351813974961217]
ノイズのある設定で, 表面コード中の真のYエラーを最適に説明する。
我々は回路レベルのノイズシナリオに取り組み,非対称な非偏極化とシンドロームノイズ率の効果的な検出に還元手法を用いる。
論文 参考訳(メタデータ) (2024-12-18T16:20:14Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Exact Backpropagation in Binary Weighted Networks with Group Weight
Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。
重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文 参考訳(メタデータ) (2021-07-03T10:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。