論文の概要: Improving Minimax Estimation Rates for Contaminated Mixture of Multinomial Logistic Experts via Expert Heterogeneity
- arxiv url: http://arxiv.org/abs/2602.00939v1
- Date: Sat, 31 Jan 2026 23:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.475114
- Title: Improving Minimax Estimation Rates for Contaminated Mixture of Multinomial Logistic Experts via Expert Heterogeneity
- Title(参考訳): 専門的不均一性を利用した多項ロジスティックエキスパートの汚染混合に対する最小推定率の改善
- Authors: Fanqi Yan, Dung Le, Trang Pham, Huy Nguyen, Nhat Ho,
- Abstract要約: 凍結したエキスパートとして機能する事前訓練されたモデルを、新しいタスクを学ぶためにトレーニング可能なエキスパートとして機能するアダプタモデルに統合するトランスファー学習手法によって、汚染された専門家の混合(MoE)が動機付けられる。
本研究は, 地絡パラメータがサンプルサイズによって異なる困難な条件下で, パラメータを推定するための一様収束率を特徴付ける。
また、対応するミニマックス下限を定め、これらのレートがミニマックス最適であることを保証する。
- 参考スコア(独自算出の注目度): 49.809923981964715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contaminated mixture of experts (MoE) is motivated by transfer learning methods where a pre-trained model, acting as a frozen expert, is integrated with an adapter model, functioning as a trainable expert, in order to learn a new task. Despite recent efforts to analyze the convergence behavior of parameter estimation in this model, there are still two unresolved problems in the literature. First, the contaminated MoE model has been studied solely in regression settings, while its theoretical foundation in classification settings remains absent. Second, previous works on MoE models for classification capture pointwise convergence rates for parameter estimation without any guaranty of minimax optimality. In this work, we close these gaps by performing, for the first time, the convergence analysis of a contaminated mixture of multinomial logistic experts with homogeneous and heterogeneous structures, respectively. In each regime, we characterize uniform convergence rates for estimating parameters under challenging settings where ground-truth parameters vary with the sample size. Furthermore, we also establish corresponding minimax lower bounds to ensure that these rates are minimax optimal. Notably, our theories offer an important insight into the design of contaminated MoE, that is, expert heterogeneity yields faster parameter estimation rates and, therefore, is more sample-efficient than expert homogeneity.
- Abstract(参考訳): 凍結したエキスパートとして機能する事前訓練されたモデルを、新しいタスクを学ぶためにトレーニング可能なエキスパートとして機能するアダプタモデルに統合するトランスファー学習手法によって、汚染された専門家の混合(MoE)が動機付けられる。
このモデルではパラメータ推定の収束挙動を解析するための最近の試みにもかかわらず、文献にはまだ未解決の問題が2つある。
まず、汚染されたMoEモデルは回帰設定でのみ研究されているが、分類設定における理論的基礎はいまだに残っていない。
第二に、過去のMoEモデルによるパラメータ推定における極小極小最適性の保証を伴わないポイントワイド収束率の分類に関する研究である。
本研究では,同種構造と異種構造を有する多相ロジスティック専門家の汚染混合物の収束解析を初めて実施することにより,これらのギャップを解消する。
各体制において, 地絡パラメータがサンプルサイズによって異なる困難な条件下で, パラメータを推定するための一様収束率を特徴付ける。
さらに、対応するミニマックス下限を確立し、これらのレートがミニマックス最適であることを保証する。
我々の理論は汚染されたMoEの設計に関する重要な洞察を与え、すなわち、専門家の不均一性はより高速なパラメータ推定率をもたらし、したがって、専門家の均質性よりもサンプリング効率が高い。
関連論文リスト
- Rethinking Multinomial Logistic Mixture of Experts with Sigmoid Gating Function [84.47276999832135]
また,シグモイドゲートは,パラメータと専門家推定の双方において,ソフトマックスゲートよりも低い値を示した。
温度をシグモイドゲートに組み込むと,温度とゲーティングパラメータの内在的な相互作用により指数律のサンプルが複雑になることがわかった。
論文 参考訳(メタデータ) (2026-02-01T22:19:16Z) - Shift Before You Learn: Enabling Low-Rank Representations in Reinforcement Learning [56.87989363424]
シフトした後継尺度において,低ランク構造が自然に現れることを示す。
有効な低ランク近似と推定に必要なシフトの量を定量化する。
論文 参考訳(メタデータ) (2025-09-05T15:48:20Z) - On Minimax Estimation of Parameters in Softmax-Contaminated Mixture of Experts [66.39976432286905]
ゲーティングおよびプロンプトパラメータの最大極大推定器の収束率について検討する。
事前学習したモデルと重なり合う知識を取得すると,これらのパラメータの推定可能性が損なわれることがわかった。
論文 参考訳(メタデータ) (2025-05-24T01:30:46Z) - Understanding Expert Structures on Minimax Parameter Estimation in Contaminated Mixture of Experts [24.665178287368974]
汚染された専門家の混合物におけるパラメータ推定の収束解析を行う。
このモデルは、専門家として定式化できるプロンプトを利用して、下流のタスクを学習するための大規模な事前学習モデルを微調整する、素早い学習問題から動機付けられている。
論文 参考訳(メタデータ) (2024-10-16T05:52:51Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。