Fugu-MT 論文翻訳(概要): On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts

論文の概要: On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts

arxiv url: http://arxiv.org/abs/2505.18455v1
Date: Sat, 24 May 2025 01:30:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.434902
Title: On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts
Title（参考訳）: ソフトマックス汚染した専門家のパラメータの最小値推定について
Authors: Fanqi Yan, Huy Nguyen, Dung Le, Pedram Akbarian, Nhat Ho, Alessandro Rinaldo,
Abstract要約: ゲーティングおよびプロンプトパラメータの最大極大推定器の収束率について検討する。事前学習したモデルと重なり合う知識を取得すると,これらのパラメータの推定可能性が損なわれることがわかった。
参考スコア（独自算出の注目度）: 66.39976432286905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The softmax-contaminated mixture of experts (MoE) model is deployed when a large-scale pre-trained model, which plays the role of a fixed expert, is fine-tuned for learning downstream tasks by including a new contamination part, or prompt, functioning as a new, trainable expert. Despite its popularity and relevance, the theoretical properties of the softmax-contaminated MoE have remained unexplored in the literature. In the paper, we study the convergence rates of the maximum likelihood estimator of gating and prompt parameters in order to gain insights into the statistical properties and potential challenges of fine-tuning with a new prompt. We find that the estimability of these parameters is compromised when the prompt acquires overlapping knowledge with the pre-trained model, in the sense that we make precise by formulating a novel analytic notion of distinguishability. Under distinguishability of the pre-trained and prompt models, we derive minimax optimal estimation rates for all the gating and prompt parameters. By contrast, when the distinguishability condition is violated, these estimation rates become significantly slower due to their dependence on the prompt convergence rate to the pre-trained model. Finally, we empirically corroborate our theoretical findings through several numerical experiments.
Abstract（参考訳）: このソフトマックス汚染モデル(MoE)は、固定された専門家の役割を担う大規模な事前訓練モデルが、新しい汚染部分を含むことや、新しい訓練可能な専門家として機能することによる下流タスクの学習のために微調整されたときに展開される。その人気と関連性にもかかわらず、軟質マックス汚染したMoEの理論的性質は文献で未解明のままである。本稿では,ゲーティングとプロンプトパラメータの最大極大推定器の収束率について検討し,新しいプロンプトで微調整を行う際の統計的特性と潜在的な課題について考察する。これらのパラメータの推定可能性は、事前学習されたモデルとの重なり合う知識を、新しい識別可能性の概念を定式化することによって正確に行うことによって、損なわれる。事前学習されたモデルとプロンプトモデルの識別性の下で、全てのゲーティングおよびプロンプトパラメータに対して最小推定率を導出する。対照的に、判別可能性条件に違反すると、これらの推定速度は、事前訓練されたモデルへの即時収束率に依存するため、著しく遅くなる。最後に,いくつかの数値実験により理論的知見を実証的に裏付ける。

関連論文リスト

Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。 MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文参考訳（メタデータ） (2025-03-05T06:11:24Z)
Understanding Expert Structures on Minimax Parameter Estimation in Contaminated Mixture of Experts [24.665178287368974]
汚染された専門家の混合物におけるパラメータ推定の収束解析を行う。このモデルは、専門家として定式化できるプロンプトを利用して、下流のタスクを学習するための大規模な事前学習モデルを微調整する、素早い学習問題から動機付けられている。
論文参考訳（メタデータ） (2024-10-16T05:52:51Z)
Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。 ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文参考訳（メタデータ） (2024-05-22T21:12:34Z)
On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。本研究は,専門家の選択に重要な意味を持つ。
論文参考訳（メタデータ） (2024-02-05T12:31:18Z)
Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文参考訳（メタデータ） (2024-01-25T01:09:09Z)
In Defense of Softmax Parametrization for Calibrated and Consistent Learning to Defer [27.025808709031864]
ソフトマックスでパラメータを遅延する学習のための一般的な推定器は、遅延する可能性の未有界推定を与えることが理論的に示されている。従来の文献における誤校正・非有界推定器の原因は,ソフトマックスによるものではなく,サロゲート損失の対称性によるものであることを示す。統計的に一貫した非対称なソフトマックスに基づくサロゲート損失を提案する。
論文参考訳（メタデータ） (2023-11-02T09:15:52Z)
A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文参考訳（メタデータ） (2023-10-22T05:32:19Z)
Monotonicity and Double Descent in Uncertainty Estimation with Gaussian Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文参考訳（メタデータ） (2022-10-14T08:09:33Z)
Improving Maximum Likelihood Training for Text Generation with Density Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文参考訳（メタデータ） (2020-07-12T15:31:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。