論文の概要: Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity
- arxiv url: http://arxiv.org/abs/2410.13964v2
- Date: Sun, 15 Jun 2025 03:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:28.696555
- Title: Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity
- Title(参考訳): 組成一般化のためのスパースミキサー--経験的エビデンスと最適空間の理論的基礎-
- Authors: Jinze Zhao, Peihao Wang, Junjie Yang, Ruisi Cai, Gaowen Liu, Jayanth Srinivasa, Ramana Rao Kompella, Yingbin Liang, Zhangyang Wang,
- Abstract要約: 本研究では,SMoEモデルにおけるタスク複雑性と最適空間の関係について検討する。
最適な間隔は、最小限のアクティベーション(1-2専門家)とフルアクティベーションの間にあり、その正確な数はタスクの複雑さに比例する。
- 参考スコア(独自算出の注目度): 89.81738321188391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (SMoE) architectures have gained prominence for their ability to scale neural networks, particularly transformers, without a proportional increase in computational cost. Despite their success, their role in compositional generalization, i.e., adapting to novel combinations of known components, remains under-explored. This study challenges the assumption that minimal expert activation suffices for task generalization and investigates the relationship between task complexity and optimal sparsity in SMoE models. Through empirical evaluations on the SRAVEN symbolic reasoning task and the SKILL-MIX benchmark, we demonstrate that (i) the number of activated experts consistently increases with the perceived task difficulty to maintain performance; and (ii) the optimal number of activated experts scales proportionally with task complexity. Our theoretical analysis derives a scaling law for optimal sparsity by balancing approximation and estimation errors, revealing alignment with empirical observations. We formally show that the optimal sparsity lies between minimal activation (1-2 experts) and full activation, with the exact number scaling proportionally to task complexity and further influenced by the size of the training data and the complexity of the model. These findings offer practical insights for designing SMoE models that achieve computational efficiency while enabling robust compositional generalization.
- Abstract(参考訳): SMOE(Sparse Mixture-of-Experts)アーキテクチャは、計算コストの比例的な増加を伴わずに、ニューラルネットワーク、特にトランスフォーマーをスケールできることで有名になった。
彼らの成功にもかかわらず、その構成的一般化における役割、すなわち既知のコンポーネントの新たな組み合わせに適応する役割は、まだ解明されていない。
本研究は,SMoEモデルにおけるタスクの複雑性と最適間隔の関係を考察し,タスクの一般化に必要最小限の専門家アクティベーションが十分であるという仮定に挑戦する。
SRAVENシンボリック推論タスクとSKILL-MIXベンチマークの実証的な評価を通じて、我々はそのことを実証した。
一 活動する専門家の数は、パフォーマンスを維持することの難しさを察知し、一貫して増加すること。
(ii) タスクの複雑さに比例して, アクティベートした専門家の最適な人数がスケールする。
我々の理論解析は近似と推定誤差のバランスをとることで最適空間のスケーリング法則を導出し、経験的観測と整合性を明らかにする。
最適な間隔は、最小限のアクティベーション(1-2専門家)と完全アクティベーションの間にあり、正確な数のスケーリングはタスクの複雑さに比例し、トレーニングデータのサイズとモデルの複雑さにさらに影響されることを正式に示す。
これらの結果は、堅牢な合成一般化を実現しつつ、計算効率を達成するSMoEモデルを設計するための実用的な洞察を与える。
関連論文リスト
- Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - CartesianMoE: Boosting Knowledge Sharing among Experts via Cartesian Product Routing in Mixture-of-Experts [36.385301311200905]
Mixture-of-Experts(MoE)モデルは、トレーニングや推論コストを大幅に高めることなく、モデルのサイズを拡大可能にする。
MoEモデルは、専門家間の知識共有に関する課題に直面し、そのパフォーマンスをルーティング精度に何らかの敏感にする。
本稿では,より効果的な知識共有を実現するCartesianMoEを提案する。
論文 参考訳(メタデータ) (2024-10-21T14:55:59Z) - AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach [0.6906005491572401]
本稿では,Adaptive Task-planing Mixture of Experts(AT-MoE)アーキテクチャを紹介する。
まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。
次に,複雑なタスク命令に基づくモジュール融合を最適化する階層適応型グループルーティングモジュールを提案する。
論文 参考訳(メタデータ) (2024-10-12T13:03:15Z) - Retraining-Free Merging of Sparse Mixture-of-Experts via Hierarchical Clustering [14.858134039539697]
疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングを提案する。
HC-SMoEはタスクに依存しないエキスパートマージフレームワークで、再トレーニングせずにSMoEモデルのパラメータを削減できる。
我々は8つのゼロショット言語タスクに関する広範な実験を通じてアプローチを検証するとともに、QwenやMixtralといった大規模SMoEモデルにおいてその効果を実証する。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts [25.504602853436047]
言語モデルのMixture of Experts (MoE)は、各入力トークンを特定の専門家のサブセットに動的にルーティングすることで、モデルのキャパシティを増大させる効果が証明されている。
我々はHypernetworks上に構築された新しいMoEフレームワークであるHyperMoEを提案する。
このフレームワークは、マルチタスク学習における知識伝達の概念とMoEの計算処理を統合する。
論文 参考訳(メタデータ) (2024-02-20T02:09:55Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。