論文の概要: Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer
- arxiv url: http://arxiv.org/abs/2310.09762v1
- Date: Sun, 15 Oct 2023 07:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:22:47.274066
- Title: Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer
- Title(参考訳): 直交オプティマイザを用いた言語モデルの混合表現の多様化
- Authors: Boan Liu, Liang Ding, Li Shen, Keqin Peng, Yu Cao, Dazhao Cheng,
Dacheng Tao
- Abstract要約: The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,エキスパートエンティティであるOMoEという,単純かつ高効率なソリューションを提案する。
- 参考スコア(独自算出の注目度): 62.41501243027603
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The Mixture of Experts (MoE) has emerged as a highly successful technique in
deep learning, based on the principle of divide-and-conquer to maximize model
capacity without significant additional computational cost. Even in the era of
large-scale language models (LLMs), MoE continues to play a crucial role, as
some researchers have indicated that GPT-4 adopts the MoE structure to ensure
diverse inference results. However, MoE is susceptible to performance
degeneracy, particularly evident in the issues of imbalance and homogeneous
representation among experts. While previous studies have extensively addressed
the problem of imbalance, the challenge of homogeneous representation remains
unresolved. In this study, we shed light on the homogeneous representation
problem, wherein experts in the MoE fail to specialize and lack diversity,
leading to frustratingly high similarities in their representations (up to 99%
in a well-performed MoE model). This problem restricts the expressive power of
the MoE and, we argue, contradicts its original intention. To tackle this
issue, we propose a straightforward yet highly effective solution: OMoE, an
orthogonal expert optimizer. Additionally, we introduce an alternating training
strategy that encourages each expert to update in a direction orthogonal to the
subspace spanned by other experts. Our algorithm facilitates MoE training in
two key ways: firstly, it explicitly enhances representation diversity, and
secondly, it implicitly fosters interaction between experts during orthogonal
weights computation. Through extensive experiments, we demonstrate that our
proposed optimization algorithm significantly improves the performance of
fine-tuning the MoE model on the GLUE benchmark, SuperGLUE benchmark,
question-answering task, and name entity recognition tasks.
- Abstract(参考訳): 専門家の混合(moe)は、大きな計算コストを伴わずにモデルの容量を最大化するための分割・結合の原則に基づいて、ディープラーニングにおいて非常に成功したテクニックとして出現した。
大規模言語モデル (LLMs) の時代においても、GPT-4 が様々な推論結果を保証するために MoE 構造を採用することを一部の研究者が示しているように、MoE は依然として重要な役割を担っている。
しかし、MoEは、特に専門家間の不均衡と均質表現の問題において、パフォーマンスの縮退に影響を受けやすい。
以前の研究は不均衡の問題に広く取り組んだが、均質表現の課題は未解決のままである。
本研究では,同種表現問題に光を当て,MoEの専門家が多様性の専門化と欠如に失敗し,表現に非常に近い類似性(MoEモデルでは最大99%)が得られた。
この問題はMoEの表現力を制限するものであり、我々はその本来の意図と矛盾していると主張する。
この問題に取り組むため,我々は直交専門家オプティマイザであるomoeを提案する。
さらに,各専門家に対して,他の専門家が分散した部分空間に直交する方向の更新を奨励する交互トレーニング戦略を導入する。
第一に,表現の多様性を明示的に高め,第二に,直交重み計算における専門家間のインタラクションを暗黙的に促進する。
広範にわたる実験により,提案アルゴリズムは,GLUEベンチマーク,SuperGLUEベンチマーク,質問応答タスク,名称エンティティ認識タスクにおいて,MoEモデルを微調整する性能を大幅に向上することを示した。
関連論文リスト
- Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文 参考訳(メタデータ) (2024-02-04T15:17:09Z) - Explainable data-driven modeling via mixture of experts: towards
effective blending of grey and black-box models [6.331947318187792]
専門家の混成」の理論的根拠に基づく包括的枠組みを提案する。
このアプローチは、多様なローカルモデルのデータベースの融合を可能にする。
我々は,解釈可能性を高めるために,専門家の組み合わせの急激な変化を罰する。
論文 参考訳(メタデータ) (2024-01-30T15:53:07Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts [79.82187318830955]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z) - Efficient Alternating Minimization Solvers for Wyner Multi-View
Unsupervised Learning [0.0]
本稿では,計算効率のよい解法の開発を可能にする2つの新しい定式化法を提案する。
提案した解法は, 計算効率, 理論的収束保証, ビュー数による局所最小値複雑性, 最先端技術と比較して, 例外的な精度を提供する。
論文 参考訳(メタデータ) (2023-03-28T10:17:51Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - State-only Imitation with Transition Dynamics Mismatch [16.934888672659824]
イミテーションラーニング(Imitation Learning, IL)は、専門家の行動を活用することで、複雑な目標を達成するための訓練エージェントにとって一般的なパラダイムである。
本稿では,新しい状態のみのILアルゴリズムを提案する。
提案アルゴリズムは,専門家と模倣MDPの間に遷移力学ミスマッチが存在する場合,特に有効であることを示す。
論文 参考訳(メタデータ) (2020-02-27T02:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。