Fugu-MT 論文翻訳(概要): Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts

論文の概要: Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts

arxiv url: http://arxiv.org/abs/2407.09590v3
Date: Sat, 19 Oct 2024 21:46:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 21:54:45.692134
Title: Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts
Title（参考訳）: Sparse Mixture-of-Expertsにおけるタスク非依存プルーニングのエキスパート知識の多様化
Authors: Zeliang Zhang, Xiaodong Liu, Hao Cheng, Chenliang Xu, Jianfeng Gao,
Abstract要約: 本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
参考スコア（独自算出の注目度）: 75.85448576746373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: By increasing model parameters but activating them sparsely when performing a task, the use of Mixture-of-Experts (MoE) architecture significantly improves the performance of Large Language Models (LLMs) without increasing the inference cost. However, the memory consumption due to the growing number of experts presents a challenge to the deployment of these models in many real world settings. Our empirical study reveals that some experts encode redundant knowledge during pre-training. We thus propose a method of grouping and pruning similar experts to improve the model's parameter efficiency. We validate the effectiveness of our method by pruning three state-of-the-art MoE architectures, including Mixtral, Deepseek-MoE, and Qwen. The evaluation shows that our method outperforms other model pruning methods on a range of natural language tasks. We will release our code to facilitate future research.
Abstract（参考訳）: モデルパラメータを増大させるが、タスクの実行時にわずかに活性化することにより、Mixture-of-Experts (MoE)アーキテクチャの使用は、推論コストを増大させることなく、LLM(Large Language Models)の性能を大幅に向上させる。しかし、専門家の増加によるメモリ消費量の増加は、これらのモデルを多くの実環境に展開する上での課題となっている。実験によっては、一部の専門家が事前トレーニング中に冗長な知識をエンコードしていることが明らかになりました。そこで本研究では,モデルパラメータの効率を向上させるために,類似の専門家をグループ化して抽出する手法を提案する。提案手法の有効性を,Mixtral, Deepseek-MoE, Qwenの3つの最先端MoEアーキテクチャを用いて検証した。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。私たちは将来の研究を促進するためにコードを公開します。

関連論文リスト

Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文参考訳（メタデータ） (2025-09-30T16:56:44Z)
LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoE は連続的なMixture of Experts (MoE) アーキテクチャであり、再生データを持たない革新的なフレームワークである。具体的には,プローブ専門家を駆使して,さらなる知識が必要かどうかを評価する手法として, Probe-Guided Knowledge Extension (PGKE) を開発した。また,PTL(Probabilistic Task Locator)と呼ばれる階層的ルーティングアルゴリズムを導入する。
論文参考訳（メタデータ） (2025-03-27T07:36:11Z)
Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文参考訳（メタデータ） (2025-01-03T20:19:14Z)
Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。 MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文参考訳（メタデータ） (2024-10-02T14:48:22Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.89318317245855]
MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。 MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
論文参考訳（メタデータ） (2024-08-13T17:49:00Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
Multi-Task Dense Prediction via Mixture of Low-Rank Experts [35.11968315125389]
MLoRE(Mixture-of-Low-Rank-Experts)と呼ばれる,マルチタスクの高密度予測のためのデコーダに着目した新しい手法を提案する。グローバルなタスク関係をモデル化するために、MLoREは元のMoE構造に汎用的な畳み込みパスを追加し、各タスク機能は、明示的なパラメータ共有のためにこのパスを通ることができる。実験の結果,MLoREは従来のすべてのメトリクスの最先端手法に比べて優れた性能を示すことがわかった。
論文参考訳（メタデータ） (2024-03-26T14:40:17Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文参考訳（メタデータ） (2023-10-24T23:29:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。