論文の概要: Mixture of Many Zero-Compute Experts: A High-Rate Quantization Theory Perspective
- arxiv url: http://arxiv.org/abs/2510.03151v1
- Date: Fri, 03 Oct 2025 16:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.480384
- Title: Mixture of Many Zero-Compute Experts: A High-Rate Quantization Theory Perspective
- Title(参考訳): ゼロコンピュート専門家の混在--高レート量子化理論の視点から
- Authors: Yehuda Dar,
- Abstract要約: 本稿では、古典的な高速量子化理論を用いて、回帰タスクの混合・オブ・エキスパート(MoE)モデルに対する新たな洞察を提供する。
私たちのMoEは入力空間の領域へのセグメンテーションによって定義され、それぞれが定数予測器として機能する単一パラメータの専門家を持つ。
我々は,MoE学習における近似と推定誤差のトレードオフが,専門家の数に依存することを示す。
- 参考スコア(独自算出の注目度): 0.6345523830122167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper uses classical high-rate quantization theory to provide new insights into mixture-of-experts (MoE) models for regression tasks. Our MoE is defined by a segmentation of the input space to regions, each with a single-parameter expert that acts as a constant predictor with zero-compute at inference. Motivated by high-rate quantization theory assumptions, we assume that the number of experts is sufficiently large to make their input-space regions very small. This lets us to study the approximation error of our MoE model class: (i) for one-dimensional inputs, we formulate the test error and its minimizing segmentation and experts; (ii) for multidimensional inputs, we formulate an upper bound for the test error and study its minimization. Moreover, we consider the learning of the expert parameters from a training dataset, given an input-space segmentation, and formulate their statistical learning properties. This leads us to theoretically and empirically show how the tradeoff between approximation and estimation errors in MoE learning depends on the number of experts.
- Abstract(参考訳): 本稿では、古典的な高速量子化理論を用いて、回帰タスクの混合・オブ・エキスパート(MoE)モデルに対する新たな洞察を提供する。
私たちのMoEは、入力空間を領域に分割することで定義され、それぞれが1パラメータの専門家を持ち、推論時にゼロ計算で一定の予測器として機能する。
高速量子化理論の仮定により、入力空間領域を極端に小さくするために、専門家の数が十分に大きいと仮定する。
これにより、MoEモデルクラスの近似誤差を研究することができます。
i) 一次元入力の場合,テストエラーを定式化し,セグメンテーションと専門家を最小化する。
(ii) 多次元入力に対して, テスト誤差の上限を定式化し, 最小化について検討する。
さらに、入力空間のセグメンテーションを与えられたトレーニングデータセットから専門家パラメータを学習し、それらの統計的学習特性を定式化する。
これにより、理論上、実証的に、MoE学習における近似と推定誤差のトレードオフが専門家の数に依存することを示す。
関連論文リスト
- On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts [66.39976432286905]
ゲーティングおよびプロンプトパラメータの最大極大推定器の収束率について検討する。
事前学習したモデルと重なり合う知識を取得すると,これらのパラメータの推定可能性が損なわれることがわかった。
論文 参考訳(メタデータ) (2025-05-24T01:30:46Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Understanding Expert Structures on Minimax Parameter Estimation in Contaminated Mixture of Experts [24.665178287368974]
汚染された専門家の混合物におけるパラメータ推定の収束解析を行う。
このモデルは、専門家として定式化できるプロンプトを利用して、下流のタスクを学習するための大規模な事前学習モデルを微調整する、素早い学習問題から動機付けられている。
論文 参考訳(メタデータ) (2024-10-16T05:52:51Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。