Fugu-MT 論文翻訳(概要): Enhancing Efficiency in Sparse Models with Sparser Selection

論文の概要: Enhancing Efficiency in Sparse Models with Sparser Selection

arxiv url: http://arxiv.org/abs/2403.18926v1
Date: Tue, 27 Feb 2024 08:18:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 02:25:04.075262
Title: Enhancing Efficiency in Sparse Models with Sparser Selection
Title（参考訳）: スペーサー選択によるスパースモデルの効率向上
Authors: Yuanhang Yang, Shiyi Qi, Wenchao Gu, Chaozheng Wang, Cuiyun Gao, Zenglin Xu,
Abstract要約: ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
参考スコア（独自算出の注目度）: 30.687511115573038
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sparse models, including sparse Mixture-of-Experts (MoE) models, have emerged as an effective approach for scaling Transformer models. However, they often suffer from computational inefficiency since a significant number of parameters are unnecessarily involved in computations via multiplying values by zero or low activation values. To address this issue, we present \tool, a novel MoE designed to enhance both the efficacy and efficiency of sparse MoE models. \tool leverages small experts and a threshold-based router to enable tokens to selectively engage only essential parameters. Our extensive experiments on language modeling and machine translation tasks demonstrate that \tool can enhance model performance while decreasing the computation load at MoE layers by over 50\% without sacrificing performance. Furthermore, we present the versatility of \tool by applying it to dense models, enabling sparse computation during inference. We provide a comprehensive analysis and make our code available at https://anonymous.4open.science/r/XMoE.
Abstract（参考訳）: Sparse Mixture-of-Experts (MoE)モデルを含むスパースモデルは、Transformerモデルをスケールするための効果的なアプローチとして現れている。しかし、多くのパラメータがゼロまたは低いアクティベーション値の乗算によって計算に不要に関わっているため、計算の非効率さに悩まされることが多い。この問題に対処するために,スパースモデルの有効性と効率性を両立させる新しいMOEである \tool を提案する。 \toolは小さなエキスパートとしきい値ベースのルータを活用して、トークンが必須パラメータのみを選択的にエンゲージできるようにする。言語モデリングと機械翻訳タスクに関する広範な実験により,性能を犠牲にすることなく,MoE層での計算負荷を50%以上削減し,モデル性能を向上させることができることを示した。さらに,高密度モデルに適用することで,推論時のスパース計算を可能にした。包括的な分析を行い、https://anonymous.4open.science/r/XMoEでコードを利用できるようにします。

関連論文リスト

MoLEx: Mixture of Layer Experts for Finetuning with Sparse Upcycling [2.1605931466490795]
深層モデルの大規模事前学習と微調整が自然言語処理(NLP)の基盤となっている。本稿では,異なるタイプの言語情報の抽出器としてレイヤについて検討する。我々は,事前学習モデルのレイヤーである専門家の疎結合であるMix of Layer Experts(Molex)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:22:07Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。 LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models [1.8434042562191815]
本稿では,SSMモデル,特にMambaとそのハイブリッドモデルの圧縮について検討する。本研究では, モデルサイズと計算オーバーヘッドを低減し, 精度を保ちながら効率を向上させるため, 選択した成分を異なる粒度で除去する際の感度について検討する。提案手法は,総称してMamba-Shedderと呼ばれ,モデル性能への影響を最小限に抑えることで,モデル効率を最大1.4倍に向上できることを示す。
論文参考訳（メタデータ） (2025-01-28T17:22:01Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。現在のMoEモデルはパラメータ非効率をしばしば表示する。我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文参考訳（メタデータ） (2024-08-13T10:25:13Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。 PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文参考訳（メタデータ） (2024-01-05T09:58:09Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文参考訳（メタデータ） (2022-11-18T03:43:52Z)
Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (2021-12-20T17:05:11Z)
Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。 Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文参考訳（メタデータ） (2021-10-07T11:58:35Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。