Fugu-MT 論文翻訳(概要): A Gated Residual Kolmogorov-Arnold Networks for Mixtures of Experts

論文の概要: A Gated Residual Kolmogorov-Arnold Networks for Mixtures of Experts

arxiv url: http://arxiv.org/abs/2409.15161v1
Date: Mon, 23 Sep 2024 16:11:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 14:13:28.248648
Title: A Gated Residual Kolmogorov-Arnold Networks for Mixtures of Experts
Title（参考訳）: 混合専門家のための残留コルモゴロフ・アルノルドネットワーク
Authors: Hugo Inzirillo, Remi Genet,
Abstract要約: Gated Residual Kolmogorov-Arnold Networks (GRKAN)に基づく新しいMoEフレームワークであるKAMoEを紹介する。デジタル資産市場と不動産評価の実験を通じて、KAMoEは様々なタスクやモデルタイプで従来のMoEアーキテクチャを一貫して上回っていることを実証した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces KAMoE, a novel Mixture of Experts (MoE) framework based on Gated Residual Kolmogorov-Arnold Networks (GRKAN). We propose GRKAN as an alternative to the traditional gating function, aiming to enhance efficiency and interpretability in MoE modeling. Through extensive experiments on digital asset markets and real estate valuation, we demonstrate that KAMoE consistently outperforms traditional MoE architectures across various tasks and model types. Our results show that GRKAN exhibits superior performance compared to standard Gating Residual Networks, particularly in LSTM-based models for sequential tasks. We also provide insights into the trade-offs between model complexity and performance gains in MoE and KAMoE architectures.
Abstract（参考訳）: 本稿では,Gated Residual Kolmogorov-Arnold Networks(GRKAN)をベースとした,新たなMixture of Experts(MoE)フレームワークであるKAMoEを紹介する。従来のゲーティング関数の代替としてGRKANを提案する。デジタル資産市場と不動産評価に関する広範な実験を通じて、KAMoEは様々なタスクやモデルタイプで従来のMoEアーキテクチャを一貫して上回っていることを実証した。以上の結果から,GRKAN は標準的な Gating Residual Networks よりも優れた性能を示し,特に LSTM に基づく逐次タスクモデルでは高い性能を示した。また、モデル複雑性とMoEアーキテクチャとKAMoEアーキテクチャのパフォーマンス向上のトレードオフに関する洞察を提供する。

関連論文リスト

Structured Generative Modeling with the Thermodynamic Kolmogorov-Arnold Model [0.0]
生成モデルに対するコルモゴロフ・アルノルド表現定理の新たな適応法を提案する。熱力学的コルモゴロフ・アルノルドモデル(T-KAM)を構造的および誘導的バイアスの新しい枠組みとして導入する。 T-KAMは、生成モデリングにおける一般的なトレードオフのエレガントなバランスを提供し、高速な推論、高いサンプル品質、安定したトレーニングを提供する。
論文参考訳（メタデータ） (2025-06-17T04:07:32Z)
Scaling Fine-Grained MoE Beyond 50B Parameters: Empirical Evaluation and Practical Insights [3.8192930334982074]
きめ細かいMoEアプローチは、モデル収束と品質を改善する可能性を示している。この研究は、将来の大規模モデルの開発において、微細なMoEを利用するための経験的基礎と実践的な洞察を提供する。
論文参考訳（メタデータ） (2025-06-03T13:55:48Z)
GRAPHMOE: Amplifying Cognitive Depth of Mixture-of-Experts Network via Introducing Self-Rethinking Mechanism [20.765816590224787]
GraphMOE は Pseudo GraphMoE ネットワーク上に構築された自己再考機構により,言語モデルの認知深度を増大させる新しい手法である。ローランド適応技術(LoRA)を用いて GraphMOE アーキテクチャを実装し,様々なベンチマークデータセットに対して広範な実験を行う。実験の結果, GraphMOEは他のLoRAモデルよりも優れ,SOTA(State-of-the-art)性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-01-14T06:59:51Z)
ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing [28.73697327316267]
計算予算を増大させることなく、モデルキャパシティをスケールアップするために、緩やかに活性化されたMixture-of-Experts (MoE)モデルが広く採用されている。我々は,従来のTopK+Softmaxルーティングの簡易かつ効果的なドロップイン置換を提供する,完全に微分可能なMoEアーキテクチャであるReMoEを提案する。 ReMoEは、さまざまなモデルサイズ、専門家数、粒度のレベルにおいて、バニラTopKのMoEを一貫して上回る。
論文参考訳（メタデータ） (2024-12-19T10:21:20Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
MoD: A Distribution-Based Approach for Merging Large Language Models [0.0]
大規模言語モデル(LLM)は、多くの専門的なタスク固有の変種の開発を可能にした。 LLMをマージするための新しいアプローチであるTextitMixture of Distributions (MoD)フレームワークを提案する。従来の重量測定法とは異なり、MoDは個々のモデルの特殊能力を効果的に保存する。
論文参考訳（メタデータ） (2024-11-01T07:05:29Z)
ViMoE: An Empirical Study of Designing Vision Mixture-of-Experts [71.11994027685974]
我々は、MoE構造をViT(Vision Transformer)に統合し、ViMoEと命名し、MoEを視覚に適用する可能性を探る。性能はMoE層の構成に敏感であり,設計を慎重に行わずに最適な結果を得ることが困難である。これを解決するために、共有専門家を導入し、共通情報を学習し、取得し、安定したViMoEを構築する効果的な方法として役立てる。
論文参考訳（メタデータ） (2024-10-21T07:51:17Z)
MoDEM: Mixture of Domain Expert Models [23.846823652305027]
大規模言語モデル(LLM)の性能と効率を向上させる新しい手法を提案する。本稿では、BERTベースのルータを用いて、最も適切なドメインエキスパートモデルに入力プロンプトを指示するシステムを提案する。本研究は,本手法が同等の大きさの汎用モデルを大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-10-09T23:52:54Z)
Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models [34.79589443380606]
大規模言語モデル(LLM)のスケーリングは、モデルトレーニングとデプロイメントの効率性と効率性にとって重要な研究領域である。本研究は,Dense Models と MoE Model のスケーリング法則の伝達性と相違について検討する。
論文参考訳（メタデータ） (2024-10-08T03:21:56Z)
On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functions [29.130355774088205]
Hierarchical Mixture of Experts (HMoE)は、複雑な入力の処理とターゲットタスクのパフォーマンス向上に長けている。我々の分析では,従来のHMoEフレームワークにおけるSoftmaxゲーティングよりもLaplaceゲーティング関数を使うことの利点を強調した。様々なシナリオにまたがる実証的な検証は、これらの理論的な主張を支持している。
論文参考訳（メタデータ） (2024-10-03T19:28:52Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文参考訳（メタデータ） (2024-07-01T17:01:54Z)
Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文参考訳（メタデータ） (2024-05-23T12:45:29Z)
State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文参考訳（メタデータ） (2024-03-25T16:10:47Z)
Bayesian sparsification for deep neural networks with Bayesian model reduction [0.6144680854063939]
我々は,モデルウェイトを刈り取るためのより効率的な代替手段として,ベイズモデルリダクション(BMR)の使用を提唱する。 BMRは、単純な(非階層的な)生成モデルの下での後方推定に基づいて、余剰モデル重みのポストホック除去を可能にする。我々は、LeNetのような古典的なネットワークから、VisionやTransformers-Mixersのようなモダンなフレームワークまで、さまざまなディープラーニングアーキテクチャにおけるBMRの可能性について説明する。
論文参考訳（メタデータ） (2023-09-21T14:10:47Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。