論文の概要: (GG) MoE vs. MLP on Tabular Data
- arxiv url: http://arxiv.org/abs/2502.03608v1
- Date: Wed, 05 Feb 2025 20:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:49.185133
- Title: (GG) MoE vs. MLP on Tabular Data
- Title(参考訳): (GG) MoE vs. MLP on Tabular Data
- Authors: Andrei Chernov,
- Abstract要約: GG MoE は,Gumbel-Softmax ゲーティング関数を組み込んだ実験用混合モデルである。
MoEとGG MoEはいずれも,ニューラルネットワークよりもはるかに少ないパラメータを生かしている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent years, significant efforts have been directed toward adapting modern neural network architectures for tabular data. However, despite their larger number of parameters and longer training and inference times, these models often fail to consistently outperform vanilla multilayer perceptron (MLP) neural networks. Moreover, MLP-based ensembles have recently demonstrated superior performance and efficiency compared to advanced deep learning methods. Therefore, rather than focusing on building deeper and more complex deep learning models, we propose investigating whether MLP neural networks can be replaced with more efficient architectures without sacrificing performance. In this paper, we first introduce GG MoE, a mixture-of-experts (MoE) model with a Gumbel-Softmax gating function. We then demonstrate that GG MoE with an embedding layer achieves the highest performance across $38$ datasets compared to standard MoE and MLP models. Finally, we show that both MoE and GG MoE utilize significantly fewer parameters than MLPs, making them a promising alternative for scaling and ensemble methods.
- Abstract(参考訳): 近年、グラフデータに現代的なニューラルネットワークアーキテクチャを適用するための重要な取り組みが進められている。
しかしながら、パラメータの数が多く、トレーニングと推論時間が長いにもかかわらず、これらのモデルはバニラ多層パーセプトロン(MLP)ニューラルネットワークを一貫して上回りません。
さらに, MLPに基づくアンサンブルは, 先進的な深層学習法と比較して, 性能と効率性が向上している。
したがって、より深く複雑なディープラーニングモデルの構築に焦点をあてるのではなく、MPPニューラルネットワークが性能を犠牲にすることなく、より効率的なアーキテクチャに置き換えられるかどうかを検討する。
本稿では,まずGG MoE,Gumbel-Softmax ゲーティング関数を混合したMoEモデルを紹介する。
次に、埋め込み層を持つGG MoEが、標準のMoEモデルやMLPモデルと比較して、38ドルのデータセットで最高のパフォーマンスを達成することを実証する。
最後に, MoE と GG MoE は MLP よりもはるかに少ないパラメータを用いており,スケーリングやアンサンブル手法の代替として有望であることを示す。
関連論文リスト
- A preliminary study on continual learning in computer vision using Kolmogorov-Arnold Networks [43.70716358136333]
Kolmogorov-Networks (KAN) は基本的に異なる数学的枠組みに基づいている。
Kansは継続的学習シナリオの忘れなど,いくつかの大きな問題に対処している。
コンピュータビジョンにおける連続的な学習課題における感性の評価によって調査を拡大する。
論文 参考訳(メタデータ) (2024-09-20T14:49:21Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - MOI-Mixer: Improving MLP-Mixer with Multi Order Interactions in
Sequential Recommendation [40.20599070308035]
トランスフォーマーベースのモデルは、シーケンス長に2次記憶と時間の複雑さを必要とするため、ユーザの長期的関心を抽出することは困難である。
線形メモリと時間複雑性で有名なMLPベースのモデルは、最近、様々なタスクにおいてTransformerと比較して競合する結果を示した。
本稿では,レイヤのメモリと時間の複雑さを維持しながら,任意の順序のインタラクションを表現できる多階インタラクション層を提案する。
論文 参考訳(メタデータ) (2021-08-17T08:38:49Z) - Towards Quantized Model Parallelism for Graph-Augmented MLPs Based on
Gradient-Free ADMM framework [22.5155416051303]
Graph Augmented Multi-layer Perceptron(GA-MLP)モデルはグラフニューラルネットワーク(GNN)の魅力的な代替品である
これは、過度に滑らかな問題に耐性があり、より深いGA-MLPモデルによりより良い性能が得られるためである。
本稿では,モデル並列化を実現するために,深層学習によるマルチプライヤの代替指向法(pdADMM)を提案する。
論文 参考訳(メタデータ) (2021-05-20T15:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。