Fugu-MT 論文翻訳(概要): XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts

論文の概要: XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts

arxiv url: http://arxiv.org/abs/2404.15247v1
Date: Tue, 23 Apr 2024 17:32:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 13:03:00.268740
Title: XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts
Title（参考訳）: XFT: コードのインストラクションチューニングのパワーをシンプルにマージする
Authors: Yifeng Ding, Jiawei Liu, Yuxiang Wei, Terry Yue Zhuo, Lingming Zhang,
Abstract要約: XFTは、命令調整型大規模言語モデル(LLM)の性能限界を解き放つための、シンプルだが強力なトレーニングスキームである。 XFTはHumanEval+を13%改善し、MBPP+、MultiPL-E、DS-1000で2%から13%改善した。
参考スコア（独自算出の注目度）: 16.941500935597187
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce XFT, a simple yet powerful training scheme, by simply merging upcycled Mixture-of-Experts (MoE) to unleash the performance limit of instruction-tuned code Large Language Models (LLMs). While vanilla sparse upcycling fails to improve instruction tuning, XFT introduces a shared expert mechanism with a novel routing weight normalization strategy into sparse upcycling, which significantly boosts instruction tuning. After fine-tuning the upcycled MoE model, XFT introduces a learnable model merging mechanism to compile the upcycled MoE model back to a dense model, achieving upcycled MoE-level performance with only dense-model compute. By applying XFT to a 1.3B model, we create a new state-of-the-art tiny code LLM (<3B) with 67.1 and 64.6 pass@1 on HumanEval and HumanEval+ respectively. With the same data and model architecture, XFT improves supervised fine-tuning (SFT) by 13% on HumanEval+, along with consistent improvements from 2% to 13% on MBPP+, MultiPL-E, and DS-1000, demonstrating its generalizability. XFT is fully orthogonal to existing techniques such as Evol-Instruct and OSS-Instruct, opening a new dimension for improving code instruction tuning. Codes are available at https://github.com/ise-uiuc/xft .
Abstract（参考訳）: 命令調整型コードLarge Language Models (LLM) の性能限界を解き放つために、Mixture-of-Experts (MoE) を単純にマージすることで、単純ながら強力なトレーニングスキームであるXFTを導入する。バニラスパースアップサイクリングは命令チューニングを改善するのに失敗するが、XFTは新しいルーティングウェイト正規化戦略をスパースアップサイクリングに導入し、命令チューニングを大幅に向上させる。アップサイクルMoEモデルを微調整した後、XFTは、アップサイクルMoEモデルを高密度モデルにコンパイルするための学習可能なモデルマージ機構を導入し、高密度モデル計算のみでアップサイクルMoEレベルのパフォーマンスを実現する。 1.3BモデルにXFTを適用することで、HumanEvalとHumanEval+でそれぞれ67.1と64.6 pass@1を持つ、最先端の小さなコード LLM (<3B) を新たに作成する。同じデータとモデルアーキテクチャで、XFTはHumanEval+で教師付き微調整(SFT)を13%改善し、MBPP+、MultiPL-E、DS-1000で2%から13%改善した。 XFTは、Evol-InstructやOSS-Instructといった既存の技術と完全に直交しており、コード命令チューニングを改善するための新しい次元を開く。コードはhttps://github.com/ise-uiuc/xft で公開されている。

関連論文リスト

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文参考訳（メタデータ） (2025-08-07T17:59:04Z)
Shadow-FT: Tuning Instruct via Base [39.78601428024931]
大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。本稿では,対応するBASEモデルを活用してINSTRUCTモデルをチューニングするための新しいShadow-FTフレームワークを提案する。提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
論文参考訳（メタデータ） (2025-05-19T05:16:21Z)
Accelerating LLM Inference with Flexible N:M Sparsity via A Fully Digital Compute-in-Memory Accelerator [5.985414012866983]
固定N:M構造を持つ大言語モデル(LLM)はスパースモデルの表現性を制限している。フレキシブルな層状外層密度対応N:Mスパシティ(FLOW)選択法を提案する。次に、フレキシブルで低オーバーヘッドのデジタルコンピュートインメモリアーキテクチャ(FlexCiM)を紹介します。
論文参考訳（メタデータ） (2025-04-19T17:47:01Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文参考訳（メタデータ） (2025-01-24T18:46:37Z)
MOGNET: A Mux-residual quantized Network leveraging Online-Generated weights [2.7036595757881323]
MOGNETは、リソース限定のハードウェアと互換性のあるコンパクトなモデルアーキテクチャである。類似またはより低いモデルサイズで1%まで明確なギャップを保ち、より高い精度を達成することができる。
論文参考訳（メタデータ） (2025-01-16T13:30:20Z)
Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文参考訳（メタデータ） (2024-11-11T15:30:16Z)
Unlocking FedNL: Self-Contained Compute-Optimized Implementation [56.16884466478886]
Federated Learning(FL)は、インテリジェントエージェントが機械学習(ML)モデルを分散的にトレーニングすることを可能にする、新たなパラダイムである。最近の研究はフェデレートニュートン学習(FedNL)アルゴリズムのファミリを導入し、FLと大規模最適化に二階法を適用するための重要なステップを示している。本稿では,単一ノードおよび複数ノード設定のためのFedNL,FedNL-LS,FedNL-PPの自己完結実装を提案する。
論文参考訳（メタデータ） (2024-10-11T12:19:18Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。 PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-28T15:27:57Z)
ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。 atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文参考訳（メタデータ） (2024-03-15T17:43:43Z)
ComPEFT: Compression for Communicating Parameter Efficient Updates via Sparsification and Quantization [100.90624220423634]
PEFTモデルにおける微調整残差(タスクベクトル)を圧縮する新しい手法であるComPEFTを提案する。 200M - 65Bパラメータを持つT5, T0, LLaMA ベースのモデルにおいて, ComPEFT は圧縮比 8x - 50x を達成する。
論文参考訳（メタデータ） (2023-11-22T05:28:59Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文参考訳（メタデータ） (2023-09-16T11:58:34Z)
Tangent Model Composition for Ensembling and Continual Fine-tuning [69.92177580782929]
タンジェントモデル合成(Tangent Model composition, TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。 TMCの精度は4.2%向上し、非線形微調整モデルの精度は4.2%向上した。
論文参考訳（メタデータ） (2023-07-16T17:45:33Z)
Using Model-Based Trees with Boosting to Fit Low-Order Functional ANOVA Models [5.131758478675364]
低次関数型ANOVAモデルは、本質的に解釈可能な機械学習の目的のもと、機械学習(ML)コミュニティで再発見された。我々は,EMMに類似する新しいアルゴリズムであるGAMI-Treeを提案する。我々は、シミュレーションと実データを用いて、GAMI-Treeの性能と解釈可能性をEMMとGAMI-Netと比較する。
論文参考訳（メタデータ） (2022-07-14T14:23:14Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding [46.74457030177477]
自動シャーディングを用いて,Sparsely-Gated Mixture-of-Expertsを用いた多言語ニューラルネットワーク翻訳トランスフォーマーモデルのスケールアップ方法を示す。我々は,2048 TPU v3アクセラレーターを4日間で効率的に訓練し,100言語から英語への翻訳において,はるかに優れた品質を実現することを実証した。
論文参考訳（メタデータ） (2020-06-30T10:42:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。