論文の概要: A Gated Residual Kolmogorov-Arnold Networks for Mixtures of Experts
- arxiv url: http://arxiv.org/abs/2409.15161v2
- Date: Fri, 13 Dec 2024 15:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:15.043436
- Title: A Gated Residual Kolmogorov-Arnold Networks for Mixtures of Experts
- Title(参考訳): 混合専門家のための残留コルモゴロフ・アルノルドネットワーク
- Authors: Hugo Inzirillo, Remi Genet,
- Abstract要約: Gated Residual Kolmogorov-Arnold Networks (GRKAN)に基づく新しいMoEフレームワークであるKAMoEを紹介する。
デジタル資産市場と不動産評価の実験を通じて、KAMoEは様々なタスクやモデルタイプで従来のMoEアーキテクチャを一貫して上回っていることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces KAMoE, a novel Mixture of Experts (MoE) framework based on Gated Residual Kolmogorov-Arnold Networks (GRKAN). We propose GRKAN as an alternative to the traditional gating function, aiming to enhance efficiency and interpretability in MoE modeling. Through extensive experiments on digital asset markets and real estate valuation, we demonstrate that KAMoE consistently outperforms traditional MoE architectures across various tasks and model types. Our results show that GRKAN exhibits superior performance compared to standard Gating Residual Networks, particularly in LSTM-based models for sequential tasks. We also provide insights into the trade-offs between model complexity and performance gains in MoE and KAMoE architectures.
- Abstract(参考訳): 本稿では,Gated Residual Kolmogorov-Arnold Networks(GRKAN)をベースとした,新たなMixture of Experts(MoE)フレームワークであるKAMoEを紹介する。
従来のゲーティング関数の代替としてGRKANを提案する。
デジタル資産市場と不動産評価に関する広範な実験を通じて、KAMoEは様々なタスクやモデルタイプで従来のMoEアーキテクチャを一貫して上回っていることを実証した。
以上の結果から,GRKAN は標準的な Gating Residual Networks よりも優れた性能を示し,特に LSTM に基づく逐次タスクモデルでは高い性能を示した。
また、モデル複雑性とMoEアーキテクチャとKAMoEアーキテクチャのパフォーマンス向上のトレードオフに関する洞察を提供する。
関連論文リスト
- OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。
まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。
これらの知見に触発されて、直交混合(OMoE)を提案する。
提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文 参考訳(メタデータ) (2025-01-17T09:27:08Z) - GRAPHMOE: Amplifying Cognitive Depth of Mixture-of-Experts Network via Introducing Self-Rethinking Mechanism [20.765816590224787]
GraphMOE は Pseudo GraphMoE ネットワーク上に構築された自己再考機構により,言語モデルの認知深度を増大させる新しい手法である。
ローランド適応技術(LoRA)を用いて GraphMOE アーキテクチャを実装し,様々なベンチマークデータセットに対して広範な実験を行う。
実験の結果, GraphMOEは他のLoRAモデルよりも優れ,SOTA(State-of-the-art)性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-01-14T06:59:51Z) - ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing [28.736973273162675]
計算予算を増大させることなく、モデルキャパシティをスケールアップするために、緩やかに活性化されたMixture-of-Experts (MoE)モデルが広く採用されている。
我々は,従来のTopK+Softmaxルーティングの簡易かつ効果的なドロップイン置換を提供する,完全に微分可能なMoEアーキテクチャであるReMoEを提案する。
ReMoEは、さまざまなモデルサイズ、専門家数、粒度のレベルにおいて、バニラTopKのMoEを一貫して上回る。
論文 参考訳(メタデータ) (2024-12-19T10:21:20Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - MoD: A Distribution-Based Approach for Merging Large Language Models [0.0]
大規模言語モデル(LLM)は、多くの専門的なタスク固有の変種の開発を可能にした。
LLMをマージするための新しいアプローチであるTextitMixture of Distributions (MoD)フレームワークを提案する。
従来の重量測定法とは異なり、MoDは個々のモデルの特殊能力を効果的に保存する。
論文 参考訳(メタデータ) (2024-11-01T07:05:29Z) - ViMoE: An Empirical Study of Designing Vision Mixture-of-Experts [71.11994027685974]
画像分類とセマンティックセグメンテーションの包括的研究を通じて,MoEを視覚に適用する可能性について検討した。
性能がMoE層の構成に敏感であることから,設計を慎重に行わずに最適な結果を得ることが困難である。
我々は、共有専門家を導入し、共通の知識を習得し、捕獲し、安定したViMoEを構築する効果的な方法として役立てる。
論文 参考訳(メタデータ) (2024-10-21T07:51:17Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。
本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文 参考訳(メタデータ) (2024-03-25T16:10:47Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。