論文の概要: SimSMoE: Solving Representational Collapse via Similarity Measure
- arxiv url: http://arxiv.org/abs/2406.15883v1
- Date: Sat, 22 Jun 2024 16:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:03:15.665042
- Title: SimSMoE: Solving Representational Collapse via Similarity Measure
- Title(参考訳): SimSMoE: 類似度測定による表現的崩壊の解決
- Authors: Giang Do, Hung Le, Truyen Tran,
- Abstract要約: SMOE(Sparse mixed of experts)は、計算コストを一定に保ちながら、大きな言語モデルをスケールするための効果的なアプローチとして登場した。
本稿では、ニューラルネットワークアルゴリズムの新たな類似性であるSimSMoE(Simisity-based Sparse Mixture of Experts)を提案する。
- 参考スコア(独自算出の注目度): 34.20340688374905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse mixture of experts (SMoE) have emerged as an effective approach for scaling large language models while keeping a constant computational cost. Regardless of several notable successes of SMoE, effective training such architecture remains elusive due to the representation collapse problem, which in turn harms model performance and causes parameter redundancy. In this work, we present Similarity-based Sparse Mixture of Experts (SimSMoE), a novel similarity of neural network algorithm, that guarantees a solution to address the representation collapse issue between experts given a fixed FLOPs budget. We conduct extensive empirical evaluations on three large language models for both Pre-training and Fine-tuning tasks to illustrate the efficacy, robustness, and scalability of our method. The results demonstrate that SimSMoE significantly enhances existing routing policy and outperforms other SMoE training methods in performance for the tasks.
- Abstract(参考訳): SMOE(Sparse mixed of experts)は、計算コストを一定に保ちながら、大きな言語モデルをスケールするための効果的なアプローチとして登場した。
SMoEのいくつかの顕著な成功にもかかわらず、表現崩壊問題により、そのようなアーキテクチャを効果的に訓練することは、モデル性能を害し、パラメータ冗長性を引き起こす。
本研究では,ニューラルネットワークアルゴリズムの新たな類似性であるSimisity-based Sparse Mixture of Experts (SimSMoE)を提案する。
提案手法の有効性, 堅牢性, 拡張性を示すために, 3つの大規模言語モデルに対して, 事前学習タスクと微調整タスクの両方に対して広範な実験的な評価を行う。
その結果、SimSMoEは既存のルーティングポリシーを大幅に改善し、タスクのパフォーマンスにおいて他のSMoEトレーニング手法よりも優れていることが示された。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [14.858134039539697]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - On the KL-Divergence-based Robust Satisficing Model [2.425685918104288]
頑丈さを満足させる枠組みは 学界から注目を集めています
本稿では,解析的解釈,多様な性能保証,効率的で安定した数値法,収束解析,階層型データ構造に適した拡張について述べる。
我々は、最先端のベンチマークと比較して、モデルの性能が優れていることを実証する。
論文 参考訳(メタデータ) (2024-08-17T10:05:05Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。
本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T07:47:55Z) - CompeteSMoE -- Effective Training of Sparse Mixture of Experts via
Competition [52.2034494666179]
スパース・ミックス・オブ・エキスパート(SMoE)は、ネットワークの深さや幅を増大させる平均を超えた、モデルの複雑さをスケールアップする魅力的なソリューションを提供する。
本稿では,この表現崩壊の根本的な課題に対処する競合機構を提案する。
入力を最も高い神経応答を持つ専門家にのみルーティングすることにより、コンペティションが最適推定器と同じ収束率を持つことを示す。
論文 参考訳(メタデータ) (2024-02-04T15:17:09Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。