論文の概要: XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2404.15247v1
- Date: Tue, 23 Apr 2024 17:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:03:00.268740
- Title: XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts
- Title(参考訳): XFT: コードのインストラクションチューニングのパワーをシンプルにマージする
- Authors: Yifeng Ding, Jiawei Liu, Yuxiang Wei, Terry Yue Zhuo, Lingming Zhang,
- Abstract要約: XFTは、命令調整型大規模言語モデル(LLM)の性能限界を解き放つための、シンプルだが強力なトレーニングスキームである。
XFTはHumanEval+を13%改善し、MBPP+、MultiPL-E、DS-1000で2%から13%改善した。
- 参考スコア(独自算出の注目度): 16.941500935597187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce XFT, a simple yet powerful training scheme, by simply merging upcycled Mixture-of-Experts (MoE) to unleash the performance limit of instruction-tuned code Large Language Models (LLMs). While vanilla sparse upcycling fails to improve instruction tuning, XFT introduces a shared expert mechanism with a novel routing weight normalization strategy into sparse upcycling, which significantly boosts instruction tuning. After fine-tuning the upcycled MoE model, XFT introduces a learnable model merging mechanism to compile the upcycled MoE model back to a dense model, achieving upcycled MoE-level performance with only dense-model compute. By applying XFT to a 1.3B model, we create a new state-of-the-art tiny code LLM (<3B) with 67.1 and 64.6 pass@1 on HumanEval and HumanEval+ respectively. With the same data and model architecture, XFT improves supervised fine-tuning (SFT) by 13% on HumanEval+, along with consistent improvements from 2% to 13% on MBPP+, MultiPL-E, and DS-1000, demonstrating its generalizability. XFT is fully orthogonal to existing techniques such as Evol-Instruct and OSS-Instruct, opening a new dimension for improving code instruction tuning. Codes are available at https://github.com/ise-uiuc/xft .
- Abstract(参考訳): 命令調整型コードLarge Language Models (LLM) の性能限界を解き放つために、Mixture-of-Experts (MoE) を単純にマージすることで、単純ながら強力なトレーニングスキームであるXFTを導入する。
バニラスパースアップサイクリングは命令チューニングを改善するのに失敗するが、XFTは新しいルーティングウェイト正規化戦略をスパースアップサイクリングに導入し、命令チューニングを大幅に向上させる。
アップサイクルMoEモデルを微調整した後、XFTは、アップサイクルMoEモデルを高密度モデルにコンパイルするための学習可能なモデルマージ機構を導入し、高密度モデル計算のみでアップサイクルMoEレベルのパフォーマンスを実現する。
1.3BモデルにXFTを適用することで、HumanEvalとHumanEval+でそれぞれ67.1と64.6 pass@1を持つ、最先端の小さなコード LLM (<3B) を新たに作成する。
同じデータとモデルアーキテクチャで、XFTはHumanEval+で教師付き微調整(SFT)を13%改善し、MBPP+、MultiPL-E、DS-1000で2%から13%改善した。
XFTは、Evol-InstructやOSS-Instructといった既存の技術と完全に直交しており、コード命令チューニングを改善するための新しい次元を開く。
コードはhttps://github.com/ise-uiuc/xft で公開されている。
関連論文リスト
- FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - MOGNET: A Mux-residual quantized Network leveraging Online-Generated weights [2.7036595757881323]
MOGNETは、リソース限定のハードウェアと互換性のあるコンパクトなモデルアーキテクチャである。
類似またはより低いモデルサイズで1%まで明確なギャップを保ち、より高い精度を達成することができる。
論文 参考訳(メタデータ) (2025-01-16T13:30:20Z) - Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。
これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。
パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - Unlocking FedNL: Self-Contained Compute-Optimized Implementation [56.16884466478886]
Federated Learning(FL)は、インテリジェントエージェントが機械学習(ML)モデルを分散的にトレーニングすることを可能にする、新たなパラダイムである。
最近の研究はフェデレートニュートン学習(FedNL)アルゴリズムのファミリを導入し、FLと大規模最適化に二階法を適用するための重要なステップを示している。
本稿では,単一ノードおよび複数ノード設定のためのFedNL,FedNL-LS,FedNL-PPの自己完結実装を提案する。
論文 参考訳(メタデータ) (2024-10-11T12:19:18Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - ComPEFT: Compression for Communicating Parameter Efficient Updates via
Sparsification and Quantization [100.90624220423634]
PEFTモデルにおける微調整残差(タスクベクトル)を圧縮する新しい手法であるComPEFTを提案する。
200M - 65Bパラメータを持つT5, T0, LLaMA ベースのモデルにおいて, ComPEFT は圧縮比 8x - 50x を達成する。
論文 参考訳(メタデータ) (2023-11-22T05:28:59Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Tangent Model Composition for Ensembling and Continual Fine-tuning [69.92177580782929]
タンジェントモデル合成(Tangent Model composition, TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。
TMCの精度は4.2%向上し、非線形微調整モデルの精度は4.2%向上した。
論文 参考訳(メタデータ) (2023-07-16T17:45:33Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - GShard: Scaling Giant Models with Conditional Computation and Automatic
Sharding [46.74457030177477]
自動シャーディングを用いて,Sparsely-Gated Mixture-of-Expertsを用いた多言語ニューラルネットワーク翻訳トランスフォーマーモデルのスケールアップ方法を示す。
我々は,2048 TPU v3アクセラレーターを4日間で効率的に訓練し,100言語から英語への翻訳において,はるかに優れた品質を実現することを実証した。
論文 参考訳(メタデータ) (2020-06-30T10:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。