論文の概要: Mapping the Schedule x Bit-Width Boundary in Sub-100M Quantisation-Aware Training
- arxiv url: http://arxiv.org/abs/2605.25966v1
- Date: Mon, 25 May 2026 15:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.442409
- Title: Mapping the Schedule x Bit-Width Boundary in Sub-100M Quantisation-Aware Training
- Title(参考訳): 1億以下量子化学習におけるスケジュールxビット幅境界のマッピング
- Authors: Christian Brandt Thomassen,
- Abstract要約: 我々は,100M未満のデコーダ言語モデルに対する初期化量子化学習(QAT)において,最適学習率スケジュールがビット幅に依存するかどうかを検証する。
ビット幅 x LR 級数 x LR モデルサイズ x シード (FP16/INT8/INT6 QAT) 上の 720 個の因子格子 (Phase 2) により、最適な暖房は、各(ビット幅、サイズ)セルで33%となる。
nullは3つの設定変更すべてで堅牢である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We test whether the optimal learning-rate schedule depends on bit-width during from-initialisation quantisation-aware training (QAT) for sub-100M decoder language models. A 720-run factorial grid (Phase 2) over bit-width x warmdown fraction x LR magnitude x model size x seed (FP16/INT8/INT6, 15M-100M, 5 seeds) finds the optimal warmdown is 33% at every (bit-width, size) cell. The primary hypothesis -- that INT6 QAT requires a different schedule than higher-precision training -- is falsified at FP16/INT8/INT6. A 625-run follow-up (Phase 5) probes the null along five axes: optimiser (AdamW), schedule shape (cosine), training length (up to 9x more iterations), an extended size sweep (5M-350M), and an INT4 sweep from 3M to 100M. The null is robust under all three setup changes. The INT6 penalty follows a log-linear scaling law whose fit on Phase 2 predicts the five held-out Phase 5 sizes (5M, 8M, 175M, 250M, 350M) within their 95% prediction intervals (5/5). For INT4 the picture is sharper than the higher precisions: at 50M and 100M, wd33 is decisively optimal (paired z ~ 12-15, 10/10 seeds); below 50M, across the six tested sizes from 3M to 30M, no individual size shows a statistically significant schedule preference and the per-size mean penalty oscillates within seed-level noise. The boundary is therefore a transition between a noise-dominated regime below 50M and a decisive wd33 regime at and above 50M, not a clean wd10 region. A weight-to-grid-distance probe falsifies the simplest mechanism for the FP16/INT8/INT6 null result (rapid grid-snapping): pre-warmdown, INT6-QAT weights sit at essentially the same distance from the INT6 grid as FP16 weights (ratio ~ 1.04). Practical recommendation: at sub-100M scale, tune the LR schedule once at FP16 and apply unchanged to INT8/INT6 QAT; for INT4 at 50M+ use wd33; for INT4 below 50M the schedule choice is in the noise.
- Abstract(参考訳): 我々は,100M未満のデコーダ言語モデルに対する初期化量子化学習(QAT)において,最適学習率スケジュールがビット幅に依存するかどうかを検証する。
ビット幅 x LR 級数 x LR モデルサイズ x シード (FP16/INT8/INT6, 15M-100M, 5 シード) 上の 720 個の因子格子 (Phase 2) により、最適な暖房は、各(ビット幅、サイズ)セルで 33% となる。
INT6 QATが高精度トレーニングとは異なるスケジュールを必要とするという第一の仮説は、FP16/INT8/INT6でファルシフィケーションされる。
625ランのフォローアップ(Phase 5)は、オプティミザー(AdamW)、スケジュール形状(コサイン)、トレーニング長(最大9倍のイテレーション)、拡張サイズスイープ(5M-350M)、INT4スイープ(3Mから100M)の5つの軸に沿ってヌルをプローブする。
nullは3つの設定変更すべてで堅牢である。
INT6のペナルティは、フェーズ2に適合する対数線スケーリング法に従い、95%の予測間隔(5/5)で5つの保留位相(5M、8M、175M、250M、350M)を予測している。
INT4では、画像は高い精度よりもシャープで、50Mと100Mでは、wd33は決定的に最適である(z ~12-15、10/10シード)。
したがって、境界は50M未満のノイズ支配体制と50M以上における決定的なwd33体制の移行であり、クリーンなwd10領域ではない。
重み間距離プローブは、FP16/INT8/INT6 null結果(ラピッドグリッドスナッピング)の最も単純なメカニズムを解析する。
実用的な推奨:100M以下のスケールでは、FP16で一度LRスケジュールを調整し、INT8/INT6 QATに変更を加える; 50M以上のINT4ではwd33; 50M以下のINT4では、スケジュール選択がノイズになる。
関連論文リスト
- Unextractable Protocol Models: Collaborative Training and Inference without Weight Materialization [58.14514930760722]
参加者が協力して大規模なニューラルネットワークを訓練し、提供する分散セットアップを検討する。
このセットアップでは、フルウェイトセットがどの参加者にも利用できないような、非機械的なウェイトの可能性を探る。
我々は、シャードモデルセットアップを利用するトレーニングおよび推論フレームワーク、Unextractable Protocol Models (UPMs)を紹介する。
論文 参考訳(メタデータ) (2026-05-22T10:24:57Z) - One-for-All: A Lightweight Stabilized and Parameter-Efficient Pre-trained LLM for Time Series Forecasting [4.364999214109123]
One-for-Allは、時系列分析のためにトレーニング済みの大規模言語モデルを適用するためのフレームワークである。
rsLoRAは、低いランクでの証明可能な勾配安定性を可能にする数学的に基底的なランク安定化機構を導入している。
One-for-Allは最先端の効率と精度のトレードオフを達成する。
論文 参考訳(メタデータ) (2026-03-31T13:54:43Z) - Evaluating Small Language Models for Front-Door Routing: A Harmonized Benchmark and Synthetic-Traffic Experiment [0.05586191108738562]
小型言語モデル(SLM)は、サブ秒、ゼロマージナルコスト、セルフホストタスクの分類に十分な推論能力を持つ。
Study 1はPhi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを同一のAzure T4ハードウェア、サービススタック、量子化、固定60ケースコーパスで同期したオフラインベンチマークである。
研究2は、合成トラフィック下で事前登録された4本腕ランダム化実験であり、有効サンプルサイズは腕あたり60ケースである。
論文 参考訳(メタデータ) (2026-03-26T15:57:46Z) - LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning [15.597220136913258]
LYNXはオンラインのアーリーエグジットメカニズムで、モデル自身の隠れ状態の認識を信頼性制御による停止決定に変換する。
一般的な数学的コーパスで一度このプローブをトレーニングして校正し、ベンチマーク、復号化温度、さらには非数学的なタスクで再利用します。
論文 参考訳(メタデータ) (2025-12-05T00:04:42Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - Exploring the Hierarchical Reasoning Model for Small Natural-Image Classification Without Augmentation [51.56484100374058]
MNIST、CIFAR-10、CIFAR-100で意図的に生の条件下で評価される。
拡張性のない小型画像分類では、HRMは単純な畳み込みアーキテクチャと競合するものではないと結論付けている。
論文 参考訳(メタデータ) (2025-10-04T01:22:41Z) - Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations [0.14504054468850663]
Proto-PINV+Hは、閉形式重み計算と少数の合成入力の最適化を組み合わせた高速な訓練パラダイムである。
MNIST(60k列車、10kテスト)とFashion-MNIST(60k列車、10kテスト)では、公式の10kテストセットでそれぞれ97.8%、89.3%のテスト精度に達した。
論文 参考訳(メタデータ) (2025-08-13T13:13:32Z) - Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-16T02:17:49Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。