論文の概要: MoR: Mixture Of Representations For Mixed-Precision Training
- arxiv url: http://arxiv.org/abs/2512.22804v1
- Date: Sun, 28 Dec 2025 06:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.235862
- Title: MoR: Mixture Of Representations For Mixed-Precision Training
- Title(参考訳): MoR: 混合精度トレーニングのための表現の混合
- Authors: Bor-Yiing Su, Peter Dykas, Mike Chrzanowski, Jatin Chhugani,
- Abstract要約: Mixture-of-Representations (MoR) は、新しいテンソル単位およびサブテンソルレベル量子化フレームワークである。
MoRはテンソルの数値特性を動的に解析し、様々な表現を選択する。
最初の研究結果から、この手法は98.38%のテンソルをFP8形式に量子化することで、最先端の結果が得られることが示された。
- 参考スコア(独自算出の注目度): 0.398636957150696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixed-precision training is a crucial technique for scaling deep learning models, but successful mixedprecision training requires identifying and applying the right combination of training methods. This paper presents our preliminary study on Mixture-of-Representations (MoR), a novel, per-tensor and sub-tensor level quantization framework that dynamically analyzes a tensor's numerical properties to select between a variety of different representations. Based on the framework, we have proposed and experimented concrete algorithms that choose dynamically between FP8 and BF16 representations for both per-tensor and sub-tensor level granularities. Our universal approach is designed to preserve model quality across various quantization partition strategies and datasets. Our initial findings show that this approach can achieve state-of-the-art results with 98.38% of tensors quantized to the FP8 format. This work highlights the potential of dynamic, property-aware quantization while preserving model quality. We believe this approach can generally improve the robustness of low precision training, as demonstrated by achieving FP8 accuracies that are on par with existing approaches without the need for fine-grain partitioning, or can be used in combination with other training methods to improve the leverage of even lower precision number formats such as NVFP4.
- Abstract(参考訳): 混合精度トレーニングは、ディープラーニングモデルをスケールするための重要なテクニックであるが、成功した混合精度トレーニングには、適切な組み合わせのトレーニング方法を特定し、適用する必要がある。
本稿では, テンソルの数値特性を動的に解析し, 様々な表現を選択できる新しい, テンソルごとの量子化フレームワークであるMixture-of-Representations (MoR) について予備研究を行った。
この枠組みに基づいて,FP8とBF16の表現を動的に選択する具体的なアルゴリズムを提案し,実験した。
我々の普遍的なアプローチは、様々な量子化分割戦略とデータセットにわたるモデル品質を維持するように設計されています。
最初の研究結果から、この手法は98.38%のテンソルをFP8形式に量子化することで、最先端の結果が得られることが示された。
この研究は、モデルの品質を維持しながら、動的で特性を考慮した量子化の可能性を強調している。
提案手法は,従来のFP8アキュラシーを微粒なパーティショニングを必要とせずに達成し,また,NVFP4などのより低い精度の数値形式を活用できるように,他のトレーニング手法と組み合わせることで,低精度トレーニングの堅牢性を向上させることができると考えている。
関連論文リスト
- Robust Variational Model Based Tailored UNet: Leveraging Edge Detector and Mean Curvature for Improved Image Segmentation [7.638424494500011]
本稿では,変分モデルに基づくUNet(VM_TUNet)の頑健なバージョンを提案する。
VM_TUNetは、変分メソッドとディープラーニングを統合するハイブリッドフレームワークである。
3つのベンチマークデータセットを用いた実験により,提案手法は性能と計算効率のバランスの取れたトレードオフを実現することが示された。
論文 参考訳(メタデータ) (2025-12-08T14:33:52Z) - Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Elucidating the Design Space of FP4 training [6.963061311516306]
本稿は,textttFP4トレーニングの設計空間を統一的に把握することを目的としている。
我々は、量子化をマイクロスケーリングするための包括的、量子化勾配に基づくフレームワークを導入する。
何千ものテクニックの組み合わせを体系的に評価することによって、どの構成が最も好ましいパフォーマンスとオーバヘッドのトレードオフを提供するかを特定します。
論文 参考訳(メタデータ) (2025-09-22T13:50:40Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - DaWin: Training-free Dynamic Weight Interpolation for Robust Adaptation [57.11544252399801]
本研究では,各未ラベルテストサンプルに対する個々のモデルのエントロピーを利用するトレーニングフリーな動的重み付け手法であるDaWinを提案する。
我々は,DaWinが計算オーバーヘッドを最小限に抑えながら,考慮した設定で大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:25:35Z) - Kernel Density Matrices for Probabilistic Deep Learning [8.486487001779416]
量子力学において、密度行列は量子系の状態を記述する最も一般的な方法である。
本稿では,確率的深層学習,カーネル密度行列に対する新しいアプローチを提案する。
これは連続確率変数と離散確率変数の両方の結合確率分布を表現するためのより単純で効果的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-05-26T12:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。