論文の概要: Mean-field limit from general mixtures of experts to quantum neural networks
- arxiv url: http://arxiv.org/abs/2501.14660v1
- Date: Fri, 24 Jan 2025 17:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 20:40:39.832022
- Title: Mean-field limit from general mixtures of experts to quantum neural networks
- Title(参考訳): エキスパートの一般混合物から量子ニューラルネットワークへの平均場制限
- Authors: Anderson Melchor Hernandez, Davide Pastorello, Giacomo De Palma,
- Abstract要約: 本研究では,教師付き学習問題に対する勾配流を通したMixture of Experts(MoE)の挙動について検討した。
我々の主な成果は、専門家の数が多様化するにつれて、MoEのカオスの伝播を確立します。
- 参考スコア(独自算出の注目度): 3.7498611358320733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study the asymptotic behavior of Mixture of Experts (MoE) trained via gradient flow on supervised learning problems. Our main result establishes the propagation of chaos for a MoE as the number of experts diverges. We demonstrate that the corresponding empirical measure of their parameters is close to a probability measure that solves a nonlinear continuity equation, and we provide an explicit convergence rate that depends solely on the number of experts. We apply our results to a MoE generated by a quantum neural network.
- Abstract(参考訳): 本研究では,教師付き学習問題に対する勾配流を通して学習したMixture of Experts(MoE)の漸近行動について検討する。
我々の主な成果は、専門家の数が多様化するにつれて、MoEのカオスの伝播を確立します。
パラメータの対応する経験的測度が非線形連続性方程式を解く確率測度に近いことを実証し、専門家の数にのみ依存する明示的な収束率を与える。
量子ニューラルネットワークによって生成されたMoEに本結果を適用する。
関連論文リスト
- Avoided-crossings, degeneracies and Berry phases in the spectrum of quantum noise through analytic Bloch-Messiah decomposition [49.1574468325115]
解析的ブロッホ・メシア分解 (analytic Bloch-Messiah decomposition) は量子光学系の力学を特徴づけるためのアプローチを提供する。
単一パラメータが変化した場合,回避された交差は自然に発生し,特異ベクトルの過敏性をもたらすことを示す。
我々は,避けられた交差を意図的に設計することで,フォトニックシステムのスペクトル応答をプログラムできる可能性を強調した。
論文 参考訳(メタデータ) (2025-04-29T13:14:15Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Understanding Expert Structures on Minimax Parameter Estimation in Contaminated Mixture of Experts [24.665178287368974]
汚染された専門家の混合物におけるパラメータ推定の収束解析を行う。
このモデルは、専門家として定式化できるプロンプトを利用して、下流のタスクを学習するための大規模な事前学習モデルを微調整する、素早い学習問題から動機付けられている。
論文 参考訳(メタデータ) (2024-10-16T05:52:51Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - Demystifying Softmax Gating Function in Gaussian Mixture of Experts [34.53974702114644]
本稿では,パラメータ間の新しいボロノイ損失関数を提案し,パラメータ推定のための最大極大推定器(MLE)の収束率を確立する。
本研究は,MLEの収束率と方程式系の可解性問題との関連性を示した。
論文 参考訳(メタデータ) (2023-05-05T05:37:55Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Bayesian Uncertainty Estimation of Learned Variational MRI
Reconstruction [63.202627467245584]
我々は,モデル不連続な不確かさを定量化するベイズ変分フレームワークを提案する。
提案手法はMRIのアンダーサンプを用いた再建術の術後成績を示す。
論文 参考訳(メタデータ) (2021-02-12T18:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。