論文の概要: MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning
- arxiv url: http://arxiv.org/abs/2311.02303v1
- Date: Sat, 4 Nov 2023 02:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:20:27.908585
- Title: MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning
- Title(参考訳): MFTCoder: マルチタスクファインチューニングによるコードLLMの強化
- Authors: Bingchang Liu, Chaoyu Chen, Cong Liao, Zi Gong, Huan Wang, Zhichao
Lei, Ming Liang, Dajun Chen, Min Shen, Hailian Zhou, Hang Yu, Jianguo Li
- Abstract要約: 複数のタスクを同時に並列に微調整できるマルチタスクファインチューニングフレームワーク MFTcoder を提案する。
実験により、我々のマルチタスクファインチューニングアプローチは、単一タスクにおける個々のファインチューニングと、混合タスクにおけるファインチューニングの両方より優れていることが示された。
- 参考スコア(独自算出の注目度): 28.12788291168137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code LLMs have emerged as a specialized research field, with remarkable
studies dedicated to enhancing model's coding capabilities through fine-tuning
on pre-trained models. Previous fine-tuning approaches were typically tailored
to specific downstream tasks or scenarios, which meant separate fine-tuning for
each task, requiring extensive training resources and posing challenges in
terms of deployment and maintenance. Furthermore, these approaches failed to
leverage the inherent interconnectedness among different code-related tasks. To
overcome these limitations, we present a multi-task fine-tuning framework,
MFTcoder, that enables simultaneous and parallel fine-tuning on multiple tasks.
By incorporating various loss functions, we effectively address common
challenges in multi-task learning, such as data imbalance, varying difficulty
levels, and inconsistent convergence speeds. Extensive experiments have
conclusively demonstrated that our multi-task fine-tuning approach outperforms
both individual fine-tuning on single tasks and fine-tuning on a mixed ensemble
of tasks. Moreover, MFTcoder offers efficient training capabilities, including
efficient data tokenization modes and PEFT fine-tuning, resulting in
significantly improved speed compared to traditional fine-tuning methods.
MFTcoder seamlessly integrates with several mainstream open-source LLMs, such
as CodeLLama and Qwen. Leveraging the CodeLLama foundation, our MFTcoder
fine-tuned model, \textsc{CodeFuse-CodeLLama-34B}, achieves an impressive
pass@1 score of 74.4\% on the HumaneEval benchmark, surpassing GPT-4
performance (67\%, zero-shot). MFTCoder is open-sourced at
\url{https://github.com/codefuse-ai/MFTCOder}
- Abstract(参考訳): コードllmは特別な研究分野として登場し、事前訓練されたモデルの微調整によるモデルのコーディング能力の向上に特化している。
従来の微調整アプローチは、通常、特定の下流タスクやシナリオに合わせたもので、各タスクごとに微調整を分離し、広範なトレーニングリソースを必要とし、デプロイメントとメンテナンスの観点から課題を提起することを意味していた。
さらに、これらのアプローチは、異なるコード関連タスク間の固有の相互接続性を活用できなかった。
これらの制約を克服するために,複数タスクの同時かつ並列な微調整を可能にするマルチタスクファインチューニングフレームワーク MFTcoder を提案する。
各種損失関数を組み込むことにより,データ不均衡,難易度の変化,収束速度の不整合といったマルチタスク学習における共通課題を効果的に解決する。
大規模な実験により、我々のマルチタスクファインチューニングアプローチは、単一タスクにおける個々のファインチューニングと混合タスクにおけるファインチューニングの両方に優れることが示された。
さらに、MPTコーダは、効率的なデータトークン化モードやPEFTファインチューニングを含む効率的なトレーニング機能を提供しており、従来のファインチューニング手法に比べて、大幅に速度が向上している。
MFTcoder は CodeLLama や Qwen など,主要なオープンソース LLM とシームレスに統合されている。
MFTcoderの微調整モデルであるCodeLLama Foundationを活用して、HumaneEvalベンチマークで74.4\%の素晴らしいパス@1スコアを達成し、GPT-4パフォーマンス(67.%、ゼロショット)を上回りました。
MFTCoder は \url{https://github.com/codefuse-ai/MFTCOder} でオープンソース化されている
関連論文リスト
- Fair Resource Allocation in Multi-Task Learning [15.094058684565702]
マルチタスク学習(MTL)はタスク間の共有知識を活用でき、データ効率と一般化性能が向上する。
MTLにおける大きな課題は、いくつかのタスクの公平な最適化を妨げる、矛盾する勾配の存在にある。
通信ネットワークにおける公平なリソース割り当てに着想を得て,新しいMTL最適化法であるFairGradを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:46:14Z) - Robust Multi-Task Learning with Excess Risks [25.758872841433877]
マルチタスク学習(MTL)は、全てのタスク損失の凸結合を最適化することにより、複数のタスクのジョイントモデルを学ぶことを検討する。
既存の方法は適応的な重み更新方式を用いており、各損失に基づいてタスク重みを動的に調整し、困難なタスクを優先順位付けする。
本稿では,過度リスクに基づくタスクバランス手法であるMulti-Task Learning with Excess Risks (ExcessMTL)を提案する。
論文 参考訳(メタデータ) (2024-02-03T03:46:14Z) - Context-PEFT: Efficient Multi-Modal, Multi-Task Fine-Tuning [12.648711621637663]
この論文は小説を紹介します。
COCO-Efficient Fine-Tuning (PEFT) framework for multi-modal, multi-task transfer learning with pre-trained language model。
トークンのドメインに基づいて異なる適応パラメータ群を学習するContext-PEFTを提案する。
提案手法はキャプションタスクで評価され、類似したデータ制約下での完全な微調整よりも優れる。
論文 参考訳(メタデータ) (2023-12-14T13:00:24Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Multi-task Highly Adaptive Lasso [1.4680035572775534]
マルチタスク学習のための新しい非パラメトリックアプローチであるマルチタスク高適応ラッソ(MT-HAL)を提案する。
MT-HALは、共通モデルにとって重要な特徴、サンプル、タスク関連を同時に学習し、類似したタスク間で共有スパース構造を付与する。
MT-HALは、幅広いシミュレーション研究において、スパーシティーベースのMTL競合よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-27T23:46:57Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Multi-Task Learning as a Bargaining Game [63.49888996291245]
マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。
これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルを訓練すると、対応するシングルタスクモデルよりも低いパフォーマンスが得られる。
本稿では,パラメータ更新のジョイント方向で合意に達するためのタスクを交渉する交渉ゲームとして,勾配の組み合わせステップを考察する。
論文 参考訳(メタデータ) (2022-02-02T13:21:53Z) - Transfer Learning for Sequence Generation: from Single-source to
Multi-source [50.34044254589968]
そこで本研究では,2段階のファイントゥニング手法を提案する。また,MSGタスクにおいて,より優れた表現を学習するための微細エンコーダを備えた新しいMSGモデルを提案する。
提案手法は,WMT17 APE タスクと WMT14 テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-05-31T09:12:38Z) - Controllable Pareto Multi-Task Learning [55.945680594691076]
マルチタスク学習システムは,複数のタスクを同時に解決することを目的としている。
固定されたモデルキャパシティでは、タスクは互いに衝突し、システムは通常、それらすべてを学ぶためにトレードオフをしなければならない。
本研究では,異なるタスク間のリアルタイムなトレードオフ制御を実現するための,新しい制御可能なマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T11:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。