論文の概要: On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts
- arxiv url: http://arxiv.org/abs/2505.18455v1
- Date: Sat, 24 May 2025 01:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.434902
- Title: On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts
- Title(参考訳): ソフトマックス汚染した専門家のパラメータの最小値推定について
- Authors: Fanqi Yan, Huy Nguyen, Dung Le, Pedram Akbarian, Nhat Ho, Alessandro Rinaldo,
- Abstract要約: ゲーティングおよびプロンプトパラメータの最大極大推定器の収束率について検討する。
事前学習したモデルと重なり合う知識を取得すると,これらのパラメータの推定可能性が損なわれることがわかった。
- 参考スコア(独自算出の注目度): 66.39976432286905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The softmax-contaminated mixture of experts (MoE) model is deployed when a large-scale pre-trained model, which plays the role of a fixed expert, is fine-tuned for learning downstream tasks by including a new contamination part, or prompt, functioning as a new, trainable expert. Despite its popularity and relevance, the theoretical properties of the softmax-contaminated MoE have remained unexplored in the literature. In the paper, we study the convergence rates of the maximum likelihood estimator of gating and prompt parameters in order to gain insights into the statistical properties and potential challenges of fine-tuning with a new prompt. We find that the estimability of these parameters is compromised when the prompt acquires overlapping knowledge with the pre-trained model, in the sense that we make precise by formulating a novel analytic notion of distinguishability. Under distinguishability of the pre-trained and prompt models, we derive minimax optimal estimation rates for all the gating and prompt parameters. By contrast, when the distinguishability condition is violated, these estimation rates become significantly slower due to their dependence on the prompt convergence rate to the pre-trained model. Finally, we empirically corroborate our theoretical findings through several numerical experiments.
- Abstract(参考訳): このソフトマックス汚染モデル(MoE)は、固定された専門家の役割を担う大規模な事前訓練モデルが、新しい汚染部分を含むことや、新しい訓練可能な専門家として機能することによる下流タスクの学習のために微調整されたときに展開される。
その人気と関連性にもかかわらず、軟質マックス汚染したMoEの理論的性質は文献で未解明のままである。
本稿では,ゲーティングとプロンプトパラメータの最大極大推定器の収束率について検討し,新しいプロンプトで微調整を行う際の統計的特性と潜在的な課題について考察する。
これらのパラメータの推定可能性は、事前学習されたモデルとの重なり合う知識を、新しい識別可能性の概念を定式化することによって正確に行うことによって、損なわれる。
事前学習されたモデルとプロンプトモデルの識別性の下で、全てのゲーティングおよびプロンプトパラメータに対して最小推定率を導出する。
対照的に、判別可能性条件に違反すると、これらの推定速度は、事前訓練されたモデルへの即時収束率に依存するため、著しく遅くなる。
最後に,いくつかの数値実験により理論的知見を実証的に裏付ける。
関連論文リスト
- Understanding Expert Structures on Minimax Parameter Estimation in Contaminated Mixture of Experts [24.665178287368974]
汚染された専門家の混合物におけるパラメータ推定の収束解析を行う。
このモデルは、専門家として定式化できるプロンプトを利用して、下流のタスクを学習するための大規模な事前学習モデルを微調整する、素早い学習問題から動機付けられている。
論文 参考訳(メタデータ) (2024-10-16T05:52:51Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。