Fugu-MT 論文翻訳(概要): MH-MoE:Multi-Head Mixture-of-Experts

論文の概要: MH-MoE:Multi-Head Mixture-of-Experts

arxiv url: http://arxiv.org/abs/2411.16205v1
Date: Mon, 25 Nov 2024 09:05:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.744925
Title: MH-MoE:Multi-Head Mixture-of-Experts
Title（参考訳）: MH-MoE:Multi-Head Mixture-of-Experts
Authors: Shaohan Huang, Xun Wu, Shuming Ma, Furu Wei,
Abstract要約: MH-MoE(Multi-Head Mixture-of-Experts)は,MH-MoE(Multi-Head Mixture-of-Experts)とMH-MoE(Multi-Head Mixture-of-Experts,MH-MoE)を併用して,様々な専門家の表現空間からの情報収集を行う。 FLOPとパラメータパリティの両方をスパースミキサーモデルで維持するMH-MoEの新たな実装を提案する。
参考スコア（独自算出の注目度）: 119.47867308669764
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-Head Mixture-of-Experts (MH-MoE) demonstrates superior performance by using the multi-head mechanism to collectively attend to information from various representation spaces within different experts. In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models. Experimental results on language models show that the new implementation yields quality improvements over both vanilla MoE and fine-grained MoE models. Additionally, our experiments demonstrate that MH-MoE is compatible with 1-bit Large Language Models (LLMs) such as BitNet.
Abstract（参考訳）: MH-MoE(Multi-Head Mixture-of-Experts)は,MH-MoE(Multi-Head Mixture-of-Experts)とMH-MoE(Multi-Head Mixture-of-Experts,MH-MoE)を併用して,様々な専門家の表現空間からの情報収集を行う。本稿では, FLOPとパラメータパリティの両方をスパースミキサーモデルで維持するMH-MoEの新たな実装を提案する。言語モデルの実験的結果から、新しい実装はバニラMoEモデルと細粒度MoEモデルの両方に対して品質改善をもたらすことが示された。さらに, 実験により, MH-MoE は BitNet などの 1 ビット大言語モデル (LLM) と互換性があることが実証された。

関連論文リスト

MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models [61.89384981175277]
ローランド適応 (LoRA) とミックスオブエキスパート (MoE) を統合するための固有テキストbfMixture-of-Adapters (MoA) アプローチを提案する。実験結果から, 不均一なMoAは均一なMoE-LoRA法よりも性能およびパラメータ効率が優れていることがわかった。
論文参考訳（メタデータ） (2025-06-06T09:54:19Z)
Scaling Fine-Grained MoE Beyond 50B Parameters: Empirical Evaluation and Practical Insights [3.8192930334982074]
きめ細かいMoEアプローチは、モデル収束と品質を改善する可能性を示している。この研究は、将来の大規模モデルの開発において、微細なMoEを利用するための経験的基礎と実践的な洞察を提供する。
論文参考訳（メタデータ） (2025-06-03T13:55:48Z)
LLaMA-MoE v2: Exploring Sparsity of LLaMA from Perspective of Mixture-of-Experts with Post-Training [18.49753274534983]
Mixture-of-Experts(MoE)モデルは、アクティベートパラメータの数を一定に保ちながら、モデルサイズをスケールする上で人気が高まっている。変換器ブロック内のMoEモジュール(すなわちMoE)とMoEモジュールの両方に対してMoEを構築することにより,高密度LLaMAモデルの疎さを徹底的に検討する。スパシティの増大による性能劣化に対処するために,2段階のポストトレーニング戦略を設計する。
論文参考訳（メタデータ） (2024-11-24T04:26:04Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文参考訳（メタデータ） (2024-10-15T19:22:27Z)
Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。 MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文参考訳（メタデータ） (2024-04-23T13:47:09Z)
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文参考訳（メタデータ） (2023-12-01T23:04:27Z)
Memory Augmented Language Models through Mixture of Word Experts [5.0215187938544315]
学習能力とFLOPをMixture-of-Experts(MoE)スタイルのモデルで積極的に分離し、知識豊富な語彙ベースのルーティング機能とエキスパートを目指しています。我々は、様々なNLPタスクにおいて、同様のFLOP数を持つモデルのT5ファミリよりも、MoWEの方がはるかに優れた性能を示すことを示した。
論文参考訳（メタデータ） (2023-11-15T18:19:56Z)
Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。 MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。 MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文参考訳（メタデータ） (2022-10-11T04:54:05Z)
Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。 Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文参考訳（メタデータ） (2021-10-07T11:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。