論文の概要: Understanding Expert Structures on Minimax Parameter Estimation in Contaminated Mixture of Experts
- arxiv url: http://arxiv.org/abs/2410.12258v1
- Date: Wed, 16 Oct 2024 05:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:54.336791
- Title: Understanding Expert Structures on Minimax Parameter Estimation in Contaminated Mixture of Experts
- Title(参考訳): 汚染ミキサーの最小パラメータ推定におけるエキスパート構造理解
- Authors: Fanqi Yan, Huy Nguyen, Dung Le, Pedram Akbarian, Nhat Ho,
- Abstract要約: 汚染された専門家の混合物におけるパラメータ推定の収束解析を行う。
このモデルは、専門家として定式化できるプロンプトを利用する素早い学習問題から動機付けられ、下流のタスクを学習するための大規模な事前学習モデルを微調整する。
- 参考スコア(独自算出の注目度): 24.665178287368974
- License:
- Abstract: We conduct the convergence analysis of parameter estimation in the contaminated mixture of experts. This model is motivated from the prompt learning problem where ones utilize prompts, which can be formulated as experts, to fine-tune a large-scaled pre-trained model for learning downstream tasks. There are two fundamental challenges emerging from the analysis: (i) the proportion in the mixture of the pre-trained model and the prompt may converge to zero where the prompt vanishes during the training; (ii) the algebraic interaction among parameters of the pre-trained model and the prompt can occur via some partial differential equation and decelerate the prompt learning. In response, we introduce a distinguishability condition to control the previous parameter interaction. Additionally, we also consider various types of expert structures to understand their effects on the parameter estimation. In each scenario, we provide comprehensive convergence rates of parameter estimation along with the corresponding minimax lower bounds.
- Abstract(参考訳): 汚染された専門家の混合物におけるパラメータ推定の収束解析を行う。
このモデルは、専門家として定式化できるプロンプトを利用する素早い学習問題から動機付けられ、下流のタスクを学習するための大規模な事前学習モデルを微調整する。
分析から生まれる根本的な課題は2つある。
i) 事前訓練されたモデルとプロンプトの混合物の比率は,訓練中にプロンプトが消滅するゼロに収束することができる。
(2)事前学習モデルのパラメータとプロンプト間の代数的相互作用は、ある偏微分方程式を介して起こり、プロンプト学習を減速させる。
そこで本研究では,従来のパラメータ間相互作用を制御するための識別可能性条件を提案する。
また,パラメータ推定への影響を理解するために,各種の専門家構造についても検討する。
各シナリオにおいて、パラメータ推定の総合収束率と対応するミニマックス下界を提供する。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Least Squares Regression Can Exhibit Under-Parameterized Double Descent [6.645111950779666]
本研究では,学習データ点数,パラメータ数,モデルの一般化能力の関係について検討する。
ピークの位置は、スペクトルとサンプル共分散の固有ベクトルの両方の技術的性質に依存すると仮定する。
論文 参考訳(メタデータ) (2023-05-24T03:52:48Z) - Towards Convergence Rates for Parameter Estimation in Gaussian-gated
Mixture of Experts [40.24720443257405]
ガウスゲートMOEモデルにおける最大推定値(MLE)の収束解析を行う。
以上の結果から,MLEはガウスゲーティング関数の位置パラメータの2つの相補的な設定の下で異なる挙動を示すことが明らかとなった。
特に、これらの挙動は2つの異なる方程式系の可解性によって特徴づけられる。
論文 参考訳(メタデータ) (2023-05-12T16:02:19Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - Parameters or Privacy: A Provable Tradeoff Between Overparameterization
and Membership Inference [29.743945643424553]
オーバーパラメータ化モデルは、トレーニングデータ(トレーニングデータではゼロエラー)を記憶するように訓練された場合でも、うまく(テストデータでは小さなエラー)一般化する。
このことが、パラメータ化されたモデル(例えばディープラーニング)をますます超越する武器競争に繋がった。
論文 参考訳(メタデータ) (2022-02-02T19:00:21Z) - Evaluating Sensitivity to the Stick-Breaking Prior in Bayesian
Nonparametrics [85.31247588089686]
変分ベイズ法はベイズモデルのパラメトリック的および非パラメトリック的側面に対して感性が得られることを示す。
ベイズ感度分析に対する変動的アプローチの理論的および経験的支援を提供する。
論文 参考訳(メタデータ) (2021-07-08T03:40:18Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Causal Inference Under Unmeasured Confounding With Negative Controls: A
Minimax Learning Approach [84.29777236590674]
すべての共同設立者が観察されず、代わりに負の制御が利用可能である場合の因果パラメータの推定について検討する。
最近の研究は、2つのいわゆるブリッジ関数による同定と効率的な推定を可能にする方法を示している。
論文 参考訳(メタデータ) (2021-03-25T17:59:19Z) - Asymptotic Behavior of Adversarial Training in Binary Classification [41.7567932118769]
敵の訓練は、敵の攻撃に対する防衛の最先端の方法と考えられている。
実際に成功したにもかかわらず、敵の訓練のパフォーマンスを理解する上でのいくつかの問題は未解決のままである。
2進分類における対角訓練の最小化のための正確な理論的予測を導出する。
論文 参考訳(メタデータ) (2020-10-26T01:44:20Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - High Dimensional Data Enrichment: Interpretable, Fast, and
Data-Efficient [38.40316295019222]
本稿では,データエンリッチメント/共有と呼ばれる複数連結線形回帰問題に対する推定器を提案する。
本研究は, プール試料のアンカーから, 共通パラメータの回収に有効であることを示す。
全体として、データ共有モデルにおける推論の統計学的および計算学的解析を初めて提示する。
論文 参考訳(メタデータ) (2018-06-11T15:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。