論文の概要: Peirce in the Machine: How Mixture of Experts Models Perform Hypothesis Construction
- arxiv url: http://arxiv.org/abs/2406.17150v1
- Date: Mon, 24 Jun 2024 21:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:11:29.121192
- Title: Peirce in the Machine: How Mixture of Experts Models Perform Hypothesis Construction
- Title(参考訳): 機械のピアス:専門家モデルの混合が仮説構築に与える影響
- Authors: Bruce Rushing,
- Abstract要約: これは専門家の混在による機能的能力の増大によるものであると我々は主張する。
我々は、専門家の混合は、パーシアンな仮説構成の感覚における誘惑的推論の一種である、と結論づける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture of experts is a prediction aggregation method in machine learning that aggregates the predictions of specialized experts. This method often outperforms Bayesian methods despite the Bayesian having stronger inductive guarantees. We argue that this is due to the greater functional capacity of mixture of experts. We prove that in a limiting case of mixture of experts will have greater capacity than equivalent Bayesian methods, which we vouchsafe through experiments on non-limiting cases. Finally, we conclude that mixture of experts is a type of abductive reasoning in the Peircian sense of hypothesis construction.
- Abstract(参考訳): 専門家の混合は、専門専門家の予測を集約する機械学習における予測集約手法である。
この方法は、ベイジアンがより強い帰納的保証を持つにもかかわらず、しばしばベイジアン法より優れている。
これは専門家の混在による機能的能力の増大によるものであると我々は主張する。
専門家の混在が制限された場合、同等のベイズ法よりも高いキャパシティを持つことが証明され、非制限ケースの実験を通じて安全である。
最後に、専門家の混合は、パーシアンな仮説構成の感覚における誘惑的推論の一種であると結論づける。
関連論文リスト
- Tighter Risk Bounds for Mixtures of Experts [2.874893537471256]
筆者らは,それぞれのゲーティング機構に局所微分プライバシー(LDP)を付与することにより,専門家の混在リスクの上限を与える。
これらの理論的な保証は、1-out-of-n$ゲーティングメカニズムを利用する専門家の混合に適合する。
論文 参考訳(メタデータ) (2024-10-14T11:37:36Z) - Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。
本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。
HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文 参考訳(メタデータ) (2024-08-20T09:35:24Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - MoCaE: Mixture of Calibrated Experts Significantly Improves Object
Detection [18.059899772411033]
我々は、Deep Ensemblesと同様の方法で、専門的なオブジェクト検出器を"自然に組み合わせることによって、しばしば性能が劣化することを発見した。
この問題の主な原因は,専門家の予測が性能に合わないことである。
これを解決するため,エキスパートの混合を構築する際に,専門家の個人的パフォーマンスを反映した方法で,これらの予測を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-09-26T14:52:51Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - Healing Products of Gaussian Processes [21.892542043785845]
現地の専門家の予測をWassersteinバリセンタの計算により組み合わせた,新たなエキスパートモデルを提案する。
特に,wasserstein barycenterを計算し,現地の専門家の予測を組み合わせる新しい経験則モデルを提案する。
論文 参考訳(メタデータ) (2021-02-14T08:53:43Z) - Gaussian Experts Selection using Graphical Models [7.530615321587948]
ローカル近似は、元のデータセットをサブセットに分割し、各サブセットでローカル専門家を訓練することで、時間の複雑さを低減する。
我々は、専門家間の条件依存を符号化するスパース精度行列を用いて、非方向性のグラフィカルモデルに関する文献からのテクニックを活用し、最も重要な専門家を選択する。
論文 参考訳(メタデータ) (2021-02-02T14:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。