Fugu-MT 論文翻訳(概要): Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks

論文の概要: Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks

arxiv url: http://arxiv.org/abs/2401.02731v3
Date: Mon, 12 Feb 2024 02:20:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 21:09:49.947983
Title: Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks
Title（参考訳）: 一般的なタスクにおける命令チューニングのためのパラメータ効率の高いスパルシティ製作法
Authors: Haoyuan Wu, Haisheng Zheng, Zhuolun He, Bei Yu
Abstract要約: 紹介する。 -高密度モデルからスパースモデルへの移行を効率よく行うPESC(Efficient Sparsity Crafting)。 PESCは、アダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。我々のスパースモデルであるCamelidaeは、他のすべてのオープンソーススパースモデルより優れており、GPT3.5と比較して優れた汎用能力を示している。
参考スコア（独自算出の注目度）: 6.048370838631722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated considerable proficiency in general natural language processing (NLP) tasks. Instruction tuning, a successful paradigm, enhances the ability of LLMs to follow natural language instructions and exhibit robust generalization across a wide range of tasks. However, these models often encounter performance limitations across multiple tasks due to constrained model capacity. Expanding this capacity during the instruction tuning phase poses significant challenges. To address this issue, we introduce a novel approach, Parameter-Efficient Sparsity Crafting (PESC), which transitions dense models to sparse models using a Mixture of Experts (MoE) architecture. PESC integrates adapters into the MoE layers of sparse models, differentiating experts without altering the individual weights within these layers. This method significantly reduces computational costs and GPU memory requirements, facilitating model capacity expansion through a minimal increase in parameters via the inserted adapters. Our empirical evaluation demonstrates the effectiveness of the PESC method. Using PESC during instruction tuning, our sparse models, dubbed Camelidae outperform all other opensource sparse models and exhibit superior general capabilities compared to GPT3.5.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語処理(NLP)のタスクにおいて、かなり熟練している。成功しているパラダイムであるインストラクションチューニングは、LLMが自然言語命令に従う能力を高め、幅広いタスクにまたがる堅牢な一般化を示す。しかしながら、モデルキャパシティの制約により、これらのモデルは複数のタスクにまたがるパフォーマンスの制限に直面することが多い。命令チューニングフェーズでこの能力を拡張することは、大きな課題となる。この問題に対処するために,パラメータ効率のよいスパシティ・クラフト (PESC) という新しい手法を導入し,Mixture of Experts (MoE) アーキテクチャを用いて高密度モデルからスパースモデルへ変換する。 PESCはアダプタをスパースモデルのMoE層に統合し、これらの層内の個々の重みを変更することなく専門家を差別化する。この方法は計算コストとGPUメモリの要求を大幅に削減し、挿入アダプタによるパラメータの最小増加によるモデルの容量拡張を容易にする。実験によりPESC法の有効性が示された。インストラクションチューニングにおいてPESCを用いて,Camelidaeと称されるスパースモデルは,他のすべてのオープンソーススパースモデルより優れ,GPT3.5と比較して優れた汎用性を示す。

関連論文リスト

MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文参考訳（メタデータ） (2025-03-29T14:35:34Z)
MoLEx: Mixture of Layer Experts for Finetuning with Sparse Upcycling [2.1605931466490795]
深層モデルの大規模事前学習と微調整が自然言語処理(NLP)の基盤となっている。本稿では,異なるタイプの言語情報の抽出器としてレイヤについて検討する。我々は,事前学習モデルのレイヤーである専門家の疎結合であるMix of Layer Experts(Molex)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:22:07Z)
ToMoE: Converting Dense Large Language Models to Mixture-of-Experts through Dynamic Structural Pruning [24.8038863056542]
大規模言語モデル(LLM)は、幅広い複雑なタスクに対処する際、顕著な能力を示した。その膨大な計算とメモリコストは、これらのモデルをリソース制約されたデバイスにデプロイする際の大きな課題を提起する。本研究では,高密度モデルに一定数のアクティブパラメータを保持するために,異なる動的プルーニング手法を提案する。
論文参考訳（メタデータ） (2025-01-25T20:01:42Z)
Retraining-Free Merging of Sparse Mixture-of-Experts via Hierarchical Clustering [14.858134039539697]
疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングを提案する。 HC-SMoEはタスクに依存しないエキスパートマージフレームワークで、再トレーニングせずにSMoEモデルのパラメータを削減できる。我々は8つのゼロショット言語タスクに関する広範な実験を通じてアプローチを検証するとともに、QwenやMixtralといった大規模SMoEモデルにおいてその効果を実証する。
論文参考訳（メタデータ） (2024-10-11T07:36:14Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。 ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-02-27T08:18:02Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。