論文の概要: Uncertainty Makes It Stable: Curiosity-Driven Quantized Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2511.11743v2
- Date: Wed, 19 Nov 2025 14:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.083501
- Title: Uncertainty Makes It Stable: Curiosity-Driven Quantized Mixture-of-Experts
- Title(参考訳): キュリオシティ駆動の量子ミキサー-of-Experts
- Authors: Sebastián Andrés Cajas Ordóñez, Luis Fernando Torres Torres, Mackenzie J. Meni, Carlos Andrés Duran Paredes, Eric Arazo, Cristian Bosch, Ricardo Simon Carbajo, Yuan Lai, Leo Anthony Celi,
- Abstract要約: 本稿では、資源制約のあるデバイス上でのディープニューラルネットワークのための好奇心駆動型量子化混合処理フレームワークを提案する。
われわれの4ビット量子化は、16ビットの精度(0.858対0.859 F1)の99.9%を維持し、4倍の圧縮と41%の省エネを実現している。
我々の情報理論的ルーティングは、適応量子化が精度(0.858 F1, 1.2M params)、エネルギー効率(3.87 F1/mJ)、予測可能なエッジモデルをもたらすことを示す。
- 参考スコア(独自算出の注目度): 6.221156050218661
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deploying deep neural networks on resource-constrained devices faces two critical challenges: maintaining accuracy under aggressive quantization while ensuring predictable inference latency. We present a curiosity-driven quantized Mixture-of-Experts framework that addresses both through Bayesian epistemic uncertainty-based routing across heterogeneous experts (BitNet ternary, 1-16 bit BitLinear, post-training quantization). Evaluated on audio classification benchmarks (ESC-50, Quinn, UrbanSound8K), our 4-bit quantization maintains 99.9 percent of 16-bit accuracy (0.858 vs 0.859 F1) with 4x compression and 41 percent energy savings versus 8-bit. Crucially, curiosity-driven routing reduces MoE latency variance by 82 percent (p = 0.008, Levene's test) from 230 ms to 29 ms standard deviation, enabling stable inference for battery-constrained devices. Statistical analysis confirms 4-bit/8-bit achieve practical equivalence with full precision (p > 0.05), while MoE architectures introduce 11 percent latency overhead (p < 0.001) without accuracy gains. At scale, deployment emissions dominate training by 10000x for models serving more than 1,000 inferences, making inference efficiency critical. Our information-theoretic routing demonstrates that adaptive quantization yields accurate (0.858 F1, 1.2M params), energy-efficient (3.87 F1/mJ), and predictable edge models, with simple 4-bit quantized architectures outperforming complex MoE for most deployments.
- Abstract(参考訳): リソース制約のあるデバイスにディープニューラルネットワークをデプロイすることは、2つの重要な課題に直面している。
本稿では,不均一な専門家(BitNet ternary, 1-16 bit BitLinear, post-training Quantization)間のベイズ的エピステミックな不確実性に基づくルーティングを通じて,キュリオシティ駆動のMixture-of-Expertsフレームワークを提案する。
オーディオ分類ベンチマーク(ESC-50、Quinn、UrbanSound8K)で評価すると、我々の4ビット量子化は16ビットの精度(0.858対0.859 F1)の99.9%を維持し、圧縮は4倍、省エネは41%である。
重要なことに、好奇心駆動のルーティングは、MoEレイテンシのばらつきを82パーセント(p = 0.008, Leveneのテスト)230msから29msの標準偏差に低減し、バッテリ制約のあるデバイスに対する安定した推論を可能にする。
統計的解析により、4ビット/8ビットは完全精度 (p > 0.05) で実用的な等価性を実現するが、MoEアーキテクチャでは11%の遅延オーバーヘッド (p < 0.001) を精度向上なしに導入している。
大規模では、1000以上の推論を提供するモデルに対して、デプロイメントエミッションが10000倍のトレーニングを支配しており、推論効率が不可欠である。
我々の情報理論的ルーティングは、適応量子化が精度(0.858 F1, 1.2M params)、エネルギー効率(3.87 F1/mJ)、予測可能なエッジモデルをもたらすことを示す。
関連論文リスト
- Energy-Efficient Deep Learning for Traffic Classification on Microcontrollers [1.3124513975412255]
本稿では,資源限定マイクロコントローラ上でのエネルギー効率の高いトラフィック分類のための実用的なディープラーニング(DL)手法を提案する。
ISCX VPN-Non-VPNデータセット上で96.59%の精度を実現するハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)により最適化された軽量な1D-CNNを開発する。
2つのマイクロコントローラにおける実世界の推論性能を評価する。
論文 参考訳(メタデータ) (2025-06-12T16:10:22Z) - ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization [73.60493264901359]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - SONIQ: System-Optimized Noise-Injected Ultra-Low-Precision Quantization with Full-Precision Parity [16.80594978261954]
SONIQは、推論で使用されるのと同じ規則の下でトレーニング中に、ウェイトとアクティベーションの両方のチャネル毎の混合精度を学習する。
SONIQは、デプロイ時に使われる個別の算術に対して、起動時なしでモデルを操縦する。
CNNとTransformers全体では、SONIQは最大16倍と7倍の圧縮を達成し、完全精度のマッチングや超精度の向上を実現している。
論文 参考訳(メタデータ) (2023-11-23T17:20:09Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-16T02:17:49Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。