論文の概要: Approximation Rates and VC-Dimension Bounds for (P)ReLU MLP Mixture of Experts
- arxiv url: http://arxiv.org/abs/2402.03460v2
- Date: Sat, 25 May 2024 16:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 07:34:54.469339
- Title: Approximation Rates and VC-Dimension Bounds for (P)ReLU MLP Mixture of Experts
- Title(参考訳): P)ReLU MLPエキスパートの近似速度とVC次元境界
- Authors: Anastasis Kratsios, Haitz Sáez de Ocáriz Borde, Takashi Furuya, Marc T. Law,
- Abstract要約: Mixture-of-Experts(MoEs)は、従来のディープラーニングモデルを越えてスケールアップすることができる。
MoMLPモデル全体のVC次元が$tildeO(LmaxnL,JW)$であるので、MoMLPが一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 17.022107735675046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoEs) can scale up beyond traditional deep learning models by employing a routing strategy in which each input is processed by a single "expert" deep learning model. This strategy allows us to scale up the number of parameters defining the MoE while maintaining sparse activation, i.e., MoEs only load a small number of their total parameters into GPU VRAM for the forward pass depending on the input. In this paper, we provide an approximation and learning-theoretic analysis of mixtures of expert MLPs with (P)ReLU activation functions. We first prove that for every error level $\varepsilon>0$ and every Lipschitz function $f:[0,1]^n\to \mathbb{R}$, one can construct a MoMLP model (a Mixture-of-Experts comprising of (P)ReLU MLPs) which uniformly approximates $f$ to $\varepsilon$ accuracy over $[0,1]^n$, while only requiring networks of $\mathcal{O}(\varepsilon^{-1})$ parameters to be loaded in memory. Additionally, we show that MoMLPs can generalize since the entire MoMLP model has a (finite) VC dimension of $\tilde{O}(L\max\{nL,JW\})$, if there are $L$ experts and each expert has a depth and width of $J$ and $W$, respectively.
- Abstract(参考訳): Mixture-of-Experts (MoEs)は、単一の"Expert"ディープラーニングモデルによって各入力が処理されるルーティング戦略を利用することで、従来のディープラーニングモデルを超えてスケールアップすることができる。
この戦略により、スパースアクティベーションを維持しながらMoEを定義するパラメータの数をスケールアップできる。つまり、MoEsは入力に応じて前方通過のためにGPU VRAMに少数のパラメータだけをロードする。
本稿では,(P)ReLUアクティベーション関数と専門家MLPの混合物の近似と学習理論解析について述べる。
まず、全てのエラーレベル $\varepsilon>0$ およびすべての Lipschitz 関数 $f:[0,1]^n\to \mathbb{R}$ に対して、(P)ReLU MLPs からなる MoMLP モデルを構築することができる。
さらに、MoMLPモデル全体のVC次元が$\tilde{O}(L\max\{nL,JW\})$であるので、MoMLPsが一般化可能であることを示す。
関連論文リスト
- Bridging the Gap Between Approximation and Learning via Optimal Approximation by ReLU MLPs of Maximal Regularity [8.28720658988688]
最適関数近似器であり,統計的に良好であるReLU多層認識(MLP)のクラスを同定する。
我々は、小さなスパイクに頼って犠牲になる最適なReLU近似器を構築するための標準的なアプローチを避けることで、これを実現する。
論文 参考訳(メタデータ) (2024-09-18T22:05:07Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Tight Bounds on the Hardness of Learning Simple Nonparametric Mixtures [9.053430799456587]
有限混合系における非パラメトリック分布の学習問題について検討する。
このようなモデルにおける成分分布を学習するために、サンプルの複雑さに厳密な境界を定めている。
論文 参考訳(メタデータ) (2022-03-28T23:53:48Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs
with a Generative Model [3.749193647980305]
本稿では,一連の状態対応機能を有するマルコフ決定プロセス(MDP)について考察する。
モデルに基づくアプローチ(resp.$Q-learning)が、高い確率で$varepsilon$-Optimalポリシーを確実に学習することを示す。
論文 参考訳(メタデータ) (2021-05-28T17:49:39Z) - Small Covers for Near-Zero Sets of Polynomials and Learning Latent
Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。
構造的結果に基づいて,いくつかの基本的高次元確率モデル隠れ変数の学習アルゴリズムを改良した。
論文 参考訳(メタデータ) (2020-12-14T18:14:08Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - Extrapolating the profile of a finite population [35.69057741775438]
経験的ベイズにおける原型的問題を考察する。すなわち、$k$の個体群は、それぞれ$k$の個体群である。
我々は、$m =omega(k/log k)$ の部分線型状態において、集団の自明な全変動を一貫して見積もることができることを示す。
論文 参考訳(メタデータ) (2020-05-21T10:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。