論文の概要: Rethinking Gating Mechanism in Sparse MoE: Handling Arbitrary Modality Inputs with Confidence-Guided Gate
- arxiv url: http://arxiv.org/abs/2505.19525v1
- Date: Mon, 26 May 2025 05:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.186286
- Title: Rethinking Gating Mechanism in Sparse MoE: Handling Arbitrary Modality Inputs with Confidence-Guided Gate
- Title(参考訳): スパースモーズにおけるゲーティング機構の再考:信頼誘導ゲートによる任意モード入力処理
- Authors: Liangwei Nathan Zheng, Wei Emma Zhang, Mingyu Guo, Miao Xu, Olaf Maennel, Weitong Chen,
- Abstract要約: Conf-SMoE では,SMoE アーキテクチャに欠落するモダリティ問題に対処する2段階の計算モジュールを提案する。
我々の理論分析にインスパイアされたConf-SMoEは、ソフトマックスルーティングスコアをタスク信頼スコア w.r.t ground truth に分解することで、新しい専門家ゲーティング機構を提案する。
- 参考スコア(独自算出の注目度): 18.76658759674321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively managing missing modalities is a fundamental challenge in real-world multimodal learning scenarios, where data incompleteness often results from systematic collection errors or sensor failures. Sparse Mixture-of-Experts (SMoE) architectures have the potential to naturally handle multimodal data, with individual experts specializing in different modalities. However, existing SMoE approach often lacks proper ability to handle missing modality, leading to performance degradation and poor generalization in real-world applications. We propose Conf-SMoE to introduce a two-stage imputation module to handle the missing modality problem for the SMoE architecture and reveal the insight of expert collapse from theoretical analysis with strong empirical evidence. Inspired by our theoretical analysis, Conf-SMoE propose a novel expert gating mechanism by detaching the softmax routing score to task confidence score w.r.t ground truth. This naturally relieves expert collapse without introducing additional load balance loss function. We show that the insights of expert collapse aligns with other gating mechanism such as Gaussian and Laplacian gate. We also evaluate the proposed method on four different real world dataset with three different experiment settings to conduct comprehensive the analysis of Conf-SMoE on modality fusion and resistance to missing modality.
- Abstract(参考訳): 現実のマルチモーダル学習シナリオでは、データの不完全性は、しばしば系統的なコレクションエラーやセンサーの故障によって生じる。
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、異なるモダリティを専門とする個々の専門家によって、自然にマルチモーダルデータを処理できる可能性がある。
しかし、既存のSMoEアプローチはモダリティの欠如に対処する適切な能力に欠けることが多く、現実のアプリケーションでは性能劣化と一般化が不十分である。
Conf-SMoE では,SMoE アーキテクチャのモダリティ問題に対処するための2段階計算モジュールを提案する。
我々の理論分析にインスパイアされたConf-SMoEは、ソフトマックスルーティングスコアをタスク信頼スコア w.r.t ground truth に分解することで、新しい専門家ゲーティング機構を提案する。
これにより、追加の負荷収支損失関数を導入することなく、専門家の崩壊を自然に軽減できる。
専門家の崩壊の洞察はガウス門やラプラシア門のような他のゲーティング機構と一致していることを示す。
また,提案手法を3つの異なる実験環境を持つ4つの実世界のデータセット上で評価し,モダリティ融合とモダリティの欠如に対する耐性に関するConf-SMoEの分析を包括的に行う。
関連論文リスト
- On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating [75.29576838162714]
DeepSeekMoEは、共有専門家戦略の展開と正規化されたシグモイドゲーティングメカニズムの2つのユニークな特徴から際立っている。
本研究では, 共有専門家戦略と正規化シグモイドゲーティングの両方において, サンプル効率の利得を明らかにするために, 専門家推定タスクの収束解析を行う。
論文 参考訳(メタデータ) (2025-05-16T04:58:18Z) - Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。
我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文 参考訳(メタデータ) (2025-04-08T00:49:08Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functions [29.130355774088205]
Hierarchical Mixture of Experts (HMoE)は、複雑な入力の処理とターゲットタスクのパフォーマンス向上に長けている。
我々の分析では,従来のHMoEフレームワークにおけるSoftmaxゲーティングよりもLaplaceゲーティング関数を使うことの利点を強調した。
様々なシナリオにまたがる実証的な検証は、これらの理論的な主張を支持している。
論文 参考訳(メタデータ) (2024-10-03T19:28:52Z) - On the KL-Divergence-based Robust Satisficing Model [2.425685918104288]
頑丈さを満足させる枠組みは 学界から注目を集めています
本稿では,解析的解釈,多様な性能保証,効率的で安定した数値法,収束解析,階層型データ構造に適した拡張について述べる。
我々は、最先端のベンチマークと比較して、モデルの性能が優れていることを実証する。
論文 参考訳(メタデータ) (2024-08-17T10:05:05Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。