論文の概要: Mean-field limit from general mixtures of experts to quantum neural networks
- arxiv url: http://arxiv.org/abs/2501.14660v1
- Date: Fri, 24 Jan 2025 17:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:55:41.124819
- Title: Mean-field limit from general mixtures of experts to quantum neural networks
- Title(参考訳): エキスパートの一般混合物から量子ニューラルネットワークへの平均場制限
- Authors: Anderson Melchor Hernandez, Davide Pastorello, Giacomo De Palma,
- Abstract要約: 本研究では,教師付き学習問題に対する勾配流を通したMixture of Experts(MoE)の挙動について検討した。
我々の主な成果は、専門家の数が多様化するにつれて、MoEのカオスの伝播を確立します。
- 参考スコア(独自算出の注目度): 3.7498611358320733
- License:
- Abstract: In this work, we study the asymptotic behavior of Mixture of Experts (MoE) trained via gradient flow on supervised learning problems. Our main result establishes the propagation of chaos for a MoE as the number of experts diverges. We demonstrate that the corresponding empirical measure of their parameters is close to a probability measure that solves a nonlinear continuity equation, and we provide an explicit convergence rate that depends solely on the number of experts. We apply our results to a MoE generated by a quantum neural network.
- Abstract(参考訳): 本研究では,教師付き学習問題に対する勾配流を通して学習したMixture of Experts(MoE)の漸近行動について検討する。
我々の主な成果は、専門家の数が多様化するにつれて、MoEのカオスの伝播を確立します。
パラメータの対応する経験的測度が非線形連続性方程式を解く確率測度に近いことを実証し、専門家の数にのみ依存する明示的な収束率を与える。
量子ニューラルネットワークによって生成されたMoEに本結果を適用する。
関連論文リスト
- Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - Theory of non-Hermitian fermionic superfluidity on a honeycomb lattice:
Interplay between exceptional manifolds and van Hove Singularity [0.0]
ハニカム格子上にクーパー対を散逸させる非エルミートフェルミオン超流動性について検討した。
相境界上のカスプにより不均一に増大する散逸誘起超流動相の出現を実証する。
論文 参考訳(メタデータ) (2023-09-28T06:21:55Z) - Deep Gaussian Mixture Ensembles [9.673093148930874]
この研究は、ディープガウス混合アンサンブル(DGME)と呼ばれる新しい確率的深層学習技術を導入している。
DGMEは、重み付き分布やマルチモーダル分布などの複雑な確率分布を近似することができる。
実験の結果,DGMEは複雑な予測密度を扱う深層学習モデルにおいて,最先端の不確実性よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-12T16:53:38Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - Demystifying Softmax Gating Function in Gaussian Mixture of Experts [34.53974702114644]
本稿では,パラメータ間の新しいボロノイ損失関数を提案し,パラメータ推定のための最大極大推定器(MLE)の収束率を確立する。
本研究は,MLEの収束率と方程式系の可解性問題との関連性を示した。
論文 参考訳(メタデータ) (2023-05-05T05:37:55Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Bayesian Uncertainty Estimation of Learned Variational MRI
Reconstruction [63.202627467245584]
我々は,モデル不連続な不確かさを定量化するベイズ変分フレームワークを提案する。
提案手法はMRIのアンダーサンプを用いた再建術の術後成績を示す。
論文 参考訳(メタデータ) (2021-02-12T18:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。