論文の概要: A Gated Residual Kolmogorov-Arnold Networks for Mixtures of Experts
- arxiv url: http://arxiv.org/abs/2409.15161v1
- Date: Mon, 23 Sep 2024 16:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:13:28.248648
- Title: A Gated Residual Kolmogorov-Arnold Networks for Mixtures of Experts
- Title(参考訳): 混合専門家のための残留コルモゴロフ・アルノルドネットワーク
- Authors: Hugo Inzirillo, Remi Genet,
- Abstract要約: Gated Residual Kolmogorov-Arnold Networks (GRKAN)に基づく新しいMoEフレームワークであるKAMoEを紹介する。
デジタル資産市場と不動産評価の実験を通じて、KAMoEは様々なタスクやモデルタイプで従来のMoEアーキテクチャを一貫して上回っていることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces KAMoE, a novel Mixture of Experts (MoE) framework based on Gated Residual Kolmogorov-Arnold Networks (GRKAN). We propose GRKAN as an alternative to the traditional gating function, aiming to enhance efficiency and interpretability in MoE modeling. Through extensive experiments on digital asset markets and real estate valuation, we demonstrate that KAMoE consistently outperforms traditional MoE architectures across various tasks and model types. Our results show that GRKAN exhibits superior performance compared to standard Gating Residual Networks, particularly in LSTM-based models for sequential tasks. We also provide insights into the trade-offs between model complexity and performance gains in MoE and KAMoE architectures.
- Abstract(参考訳): 本稿では,Gated Residual Kolmogorov-Arnold Networks(GRKAN)をベースとした,新たなMixture of Experts(MoE)フレームワークであるKAMoEを紹介する。
従来のゲーティング関数の代替としてGRKANを提案する。
デジタル資産市場と不動産評価に関する広範な実験を通じて、KAMoEは様々なタスクやモデルタイプで従来のMoEアーキテクチャを一貫して上回っていることを実証した。
以上の結果から,GRKAN は標準的な Gating Residual Networks よりも優れた性能を示し,特に LSTM に基づく逐次タスクモデルでは高い性能を示した。
また、モデル複雑性とMoEアーキテクチャとKAMoEアーキテクチャのパフォーマンス向上のトレードオフに関する洞察を提供する。
関連論文リスト
- Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文 参考訳(メタデータ) (2024-07-01T17:01:54Z) - Suitability of KANs for Computer Vision: A preliminary investigation [28.030708956348864]
Kolmogorov-Arnold Networks (KAN) はニューラルネットワークのパラダイムを導入し、ネットワークの端に学習可能な関数を実装する。
本研究は,画像認識タスクに焦点をあて,視覚モデルにおけるkansの適用性と有効性を評価する。
論文 参考訳(メタデータ) (2024-06-13T13:13:17Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。
本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文 参考訳(メタデータ) (2024-03-25T16:10:47Z) - Bayesian sparsification for deep neural networks with Bayesian model
reduction [0.6144680854063939]
我々は,モデルウェイトを刈り取るためのより効率的な代替手段として,ベイズモデルリダクション(BMR)の使用を提唱する。
BMRは、単純な(非階層的な)生成モデルの下での後方推定に基づいて、余剰モデル重みのポストホック除去を可能にする。
我々は、LeNetのような古典的なネットワークから、VisionやTransformers-Mixersのようなモダンなフレームワークまで、さまざまなディープラーニングアーキテクチャにおけるBMRの可能性について説明する。
論文 参考訳(メタデータ) (2023-09-21T14:10:47Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。