論文の概要: ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits
- arxiv url: http://arxiv.org/abs/2601.13563v1
- Date: Tue, 20 Jan 2026 03:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.141102
- Title: ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits
- Title(参考訳): ButterflyMoE:構造化されたバタフライ軌道を通した準線形第三級エキスパート
- Authors: Aryan Karmore,
- Abstract要約: ButterflyMoEは、専門家を独立した重量行列ではなく、統一された量子化基板の幾何学的再配向として扱う。
言語モデリングベンチマーク全体で、ButterflyMoEは256のエキスパートで150倍のメモリ削減を実現している。
これにより、64人のエキスパートが標準のMoEの8人のエキスパートと比較して4GBのデバイスに適合し、幾何学的パラメトリゼーションが線形スケーリングを損なうことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear memory scaling stores $N$ independent expert weight matrices requiring $\mathcal{O}(N \cdot d^2)$ memory, which exceeds edge devices memory budget. Current compression methods like quantization, pruning and low-rank factorization reduce constant factors but leave the scaling bottleneck unresolved. We introduce ButterflyMoE, a method that treats experts not as independent weight matrices but as geometric reorientations of a unified shared quantized substrate. Diversity among experts arises from viewing different angles of shared capacity, not from redundant storage. By applying learned rotations to a shared ternary prototype, each expert yields $\mathcal{O}(d^2 + N \cdot d \log d)$ memory -- sub-linear in the number of experts. The key insight: training these rotations with quantization reduces activation outliers and stabilizes extreme low bit training, where static methods collapse. Across language modeling benchmarks, ButterflyMoE achieves 150 times memory reduction at 256 experts with negligible accuracy loss. This allows 64 experts to fit on 4GB devices compared to standard MoE's 8 experts, showing geometric parametrization breaks linear scaling.
- Abstract(参考訳): 線形メモリスケーリングは、エッジデバイスのメモリ予算を超える$\mathcal{O}(N \cdot d^2)$メモリを必要とする独立の専門家重量行列を$N$に格納する。
量子化、プルーニング、低ランク因数分解といった現在の圧縮手法は定数因子を減少させるが、スケーリングのボトルネックは未解決のままである。
独立重み行列ではなく、統一された共有量子化基板の幾何学的配向として専門家を扱う方法であるButterflyMoEを紹介する。
専門家の多様性は、冗長なストレージからではなく、共有容量の異なる角度を見ることから生まれる。
学習した回転を共有3次プロトタイプに適用することにより、各専門家は、エキスパートの数で$\mathcal{O}(d^2 + N \cdot d \log d)$ memory -- をサブ線形とする。
鍵となる洞察は、これらの回転を量子化でトレーニングすることで、アクティベーションのアウトラヤが減少し、静的メソッドが崩壊する極端な低ビットトレーニングが安定化されることである。
言語モデリングベンチマーク全体で、ButterflyMoEは256のエキスパートで150倍のメモリ削減を実現している。
これにより、64人のエキスパートが標準のMoEの8人のエキスパートと比較して4GBのデバイスに適合し、幾何学的パラメトリゼーションが線形スケーリングを損なうことを示す。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - Quantum-inspired Benchmark for Estimating Intrinsic Dimension [2.0937431058291938]
機械学習モデルは、現実世界のデータセットでうまく一般化することができる。
ID推定法(IDE)は数多く存在するが、その推定方法は大きく異なる。
量子インスパイアされた固有次元推定(QuIIEst)ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-01T18:03:02Z) - HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space [12.872890364287345]
HEAPrは、専門家を小さく、識別不能な原子エキスパートに分解する、新しい刈り取りアルゴリズムである。
これは、原子専門家の固有の特性を利用して、2階の情報を専門家パラメータから原子専門家パラメータに変換する。
これは、様々な圧縮率とベンチマークで、既存のエキスパートレベルのプルーニング手法よりも優れています。
論文 参考訳(メタデータ) (2025-09-26T13:00:46Z) - ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms [21.010238822100135]
大きな言語モデルは巨大なメモリフットプリントを必要とし、コンシューマハードウェアへのデプロイを著しく制限する。
量子化は低い数値精度でメモリを減少させるが、極端な2ビット量子化は、アクティベーションの異常値による破滅的な性能損失に悩まされる。
本研究では,アダマール回転を学習可能なバタフライ変換に置き換えるバタフライ量子化法を提案する。
論文 参考訳(メタデータ) (2025-09-11T17:59:51Z) - BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Sketchy: Memory-efficient Adaptive Regularization with Frequent
Directions [22.09320263962004]
ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。
本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。
ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
論文 参考訳(メタデータ) (2023-02-07T21:50:06Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。