論文の概要: Horseshoe Mixtures-of-Experts (HS-MoE)
- arxiv url: http://arxiv.org/abs/2601.09043v1
- Date: Wed, 14 Jan 2026 00:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.204583
- Title: Horseshoe Mixtures-of-Experts (HS-MoE)
- Title(参考訳): Horseshoe Mixtures-of-Experts (HS-MoE)
- Authors: Nick Polson, Vadim Sokolov,
- Abstract要約: Horseshoe Mixs-of-Experts(HS-MoE)モデルは、スパースの専門家選択のためのベイズ的なフレームワークを提供する。
我々は,従来のホースシューの適応的グローバル局所収縮と入力依存ゲーティングを組み合わせることで,専門家の利用におけるデータ順応性を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Horseshoe mixtures-of-experts (HS-MoE) models provide a Bayesian framework for sparse expert selection in mixture-of-experts architectures. We combine the horseshoe prior's adaptive global-local shrinkage with input-dependent gating, yielding data-adaptive sparsity in expert usage. Our primary methodological contribution is a particle learning algorithm for sequential inference, in which the filter is propagated forward in time while tracking only sufficient statistics. We also discuss how HS-MoE relates to modern mixture-of-experts layers in large language models, which are deployed under extreme sparsity constraints (e.g., activating a small number of experts per token out of a large pool).
- Abstract(参考訳): Horseshoe Mixs-of-Experts(HS-MoE)モデルは、Mix-of-Expertsアーキテクチャにおけるスパースエキスパート選択のためのベイズ的フレームワークを提供する。
我々は,従来のホースシューの適応的グローバル局所収縮と入力依存ゲーティングを組み合わせることで,専門家の利用におけるデータ順応性を実現する。
我々の主要な方法論的貢献は、逐次推論のための粒子学習アルゴリズムであり、そこでは、十分な統計のみを追跡しながら、フィルタを時間内に前方に伝播させる。
我々はまた、HS-MoEが大規模言語モデルにおける現代の混合専門家層とどのように関係しているかについても論じる。
関連論文リスト
- Model Selection for Gaussian-gated Gaussian Mixture of Experts Using Dendrograms of Mixing Measures [24.865197779389323]
Mixture of Experts (MoE)モデルは、統計学と機械学習において広く利用されているアンサンブル学習アプローチのクラスである。
混合成分の真の数を一貫した推定が可能なガウスゲート型MoEモデルに新しい拡張を導入する。
合成データを用いた実験結果から,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T12:41:19Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Fast Deep Mixtures of Gaussian Process Experts [0.6554326244334868]
教師付き学習コンテキストにおけるフレキシブルなモデリングには,専門家の混在が不可欠である。
本稿では、ディープニューラルネットワーク(DNN)を用いて、スパースGPから専門家を選択するためのゲーティングネットワークの設計を提案する。
CCR (Cluster-Classify-Regress) と呼ばれる高速なワンパスアルゴリズムを用いて、最大後部推定器(MAP)を極端に高速に近似する。
論文 参考訳(メタデータ) (2020-06-11T18:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。