Fugu-MT 論文翻訳(概要): On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functions

論文の概要: On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functions

arxiv url: http://arxiv.org/abs/2410.02935v1
Date: Thu, 3 Oct 2024 19:28:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 04:55:13.123602
Title: On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functions
Title（参考訳）: エキスパートの階層的混合におけるエキスパート推定について:ソフトマックスゲーティング関数を超えて
Authors: Huy Nguyen, Xing Han, Carl William Harris, Suchi Saria, Nhat Ho,
Abstract要約: Hierarchical Mixture of Experts (HMoE)は、複雑な入力の処理とターゲットタスクのパフォーマンス向上に長けている。理論的には、各専門家群に配向ゲーティング関数を適用することで、HMoEが堅牢な結果が得られることを証明している。これには、大規模なマルチモーダルタスク、画像分類、潜時ドメイン発見および予測タスクが含まれます。
参考スコア（独自算出の注目度）: 29.130355774088205
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the growing prominence of the Mixture of Experts (MoE) architecture in developing large-scale foundation models, we investigate the Hierarchical Mixture of Experts (HMoE), a specialized variant of MoE that excels in handling complex inputs and improving performance on targeted tasks. Our investigation highlights the advantages of using varied gating functions, moving beyond softmax gating within HMoE frameworks. We theoretically demonstrate that applying tailored gating functions to each expert group allows HMoE to achieve robust results, even when optimal gating functions are applied only at select hierarchical levels. Empirical validation across diverse scenarios supports these theoretical claims. This includes large-scale multimodal tasks, image classification, and latent domain discovery and prediction tasks, where our modified HMoE models show great performance improvements.
Abstract（参考訳）: 大規模基盤モデル開発におけるMixture of Experts(MoE)アーキテクチャの普及に伴い,複雑な入力の処理や目標タスクのパフォーマンス向上に優れたMoEの特殊な派生であるHMoE(Hierarchical Mixture of Experts)について検討する。調査では,HMoEフレームワーク内でのソフトマックスゲーティングを超えて,多様なゲーティング関数を使用することの利点を強調した。理論的には、各専門家群に配向ゲーティング関数を適用することで、最適ゲーティング関数が特定の階層レベルでのみ適用される場合でも、HMoEはロバストな結果が得られる。様々なシナリオにまたがる実証的な検証は、これらの理論的な主張を支持している。これには、大規模なマルチモーダルタスク、画像分類、潜時ドメイン発見および予測タスクが含まれます。

関連論文リスト

On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating [75.29576838162714]
DeepSeekMoEは、共有専門家戦略の展開と正規化されたシグモイドゲーティングメカニズムの2つのユニークな特徴から際立っている。本研究では, 共有専門家戦略と正規化シグモイドゲーティングの両方において, サンプル効率の利得を明らかにするために, 専門家推定タスクの収束解析を行う。
論文参考訳（メタデータ） (2025-05-16T04:58:18Z)
Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。 MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文参考訳（メタデータ） (2025-03-05T06:11:24Z)
OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。これらの知見に触発されて、直交混合(OMoE)を提案する。提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文参考訳（メタデータ） (2025-01-17T09:27:08Z)
Quadratic Gating Functions in Mixture of Experts: A Statistical Insight [28.17124843417577]
混合専門家モデル(MoE)は、計算効率を保ちながら、モデルのキャパシティのスケーリングに非常に効果的である。我々は、MoEフレームワークとアテンションメカニズムの新たな接続を確立し、より表現力があり効率的な代替手段として2次ゲーティングがどのように機能するかを示す。
論文参考訳（メタデータ） (2024-10-15T03:06:37Z)
Retraining-Free Merging of Sparse Mixture-of-Experts via Hierarchical Clustering [14.858134039539697]
疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングを提案する。 HC-SMoEはタスクに依存しないエキスパートマージフレームワークで、再トレーニングせずにSMoEモデルのパラメータを削減できる。我々は8つのゼロショット言語タスクに関する広範な実験を通じてアプローチを検証するとともに、QwenやMixtralといった大規模SMoEモデルにおいてその効果を実証する。
論文参考訳（メタデータ） (2024-10-11T07:36:14Z)
Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。 MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文参考訳（メタデータ） (2024-10-02T14:48:22Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文参考訳（メタデータ） (2024-07-02T03:11:13Z)
Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。 ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文参考訳（メタデータ） (2024-05-22T21:12:34Z)
Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文参考訳（メタデータ） (2024-03-12T13:41:15Z)
On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。本研究は,専門家の選択に重要な意味を持つ。
論文参考訳（メタデータ） (2024-02-05T12:31:18Z)
Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文参考訳（メタデータ） (2024-01-08T12:39:25Z)
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文参考訳（メタデータ） (2023-12-01T23:04:27Z)
A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文参考訳（メタデータ） (2023-10-22T05:32:19Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。