論文の概要: Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models
- arxiv url: http://arxiv.org/abs/2308.10462v2
- Date: Thu, 18 Jan 2024 15:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 20:23:59.240851
- Title: Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたコード生成のためのパラメータ効率の良い微調整手法の探索
- Authors: Martin Weyssow, Xin Zhou, Kisub Kim, David Lo and Houari Sahraoui
- Abstract要約: 大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
- 参考スコア(独自算出の注目度): 12.708117108874083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive capabilities to generate
accurate code snippets given natural language intents in zero-shot, i.e.,
without the need for specific fine-tuning. While prior studies have highlighted
the advantages of fine-tuning LLMs, this process incurs high computational
costs, making it impractical in resource-scarce environments, particularly for
models with billions of parameters. To address these challenges, previous
research explored In-Context Learning (ICL) as a strategy to guide the LLM
generative process with task-specific prompt examples. However, ICL introduces
inconveniences, such as the need for designing contextually relevant prompts
and the absence of learning task-specific parameters, thereby limiting
downstream task performance. In this context, we foresee Parameter-Efficient
Fine-Tuning (PEFT) techniques as a promising approach to efficiently specialize
LLMs to task-specific data while maintaining reasonable resource consumption.
In this paper, we deliver a comprehensive study of PEFT techniques for LLMs
under the automated code generation scenario. Our comprehensive investigation
of PEFT techniques for LLMs reveals their superiority and potential over ICL
across a diverse set of LLMs. Additionally, we demonstrate the extended
capabilities of PEFT, showcasing its ability to learn from two distinct
datasets jointly without compromising performance. Furthermore, our study
highlights the potential for tuning larger LLMs and significant reductions in
memory usage by combining PEFT with quantization. Therefore, this study opens
opportunities for broader applications of PEFT in software engineering
scenarios. Our code is available at
https://github.com/martin-wey/peft-llm-code/.
- Abstract(参考訳): 大型言語モデル(LLM)は、特定の微調整を必要とせずに、ゼロショットで自然言語の意図を与えられた正確なコードスニペットを生成する印象的な能力を示す。
これまでの研究では、微調整LDMの利点を強調していたが、このプロセスは高い計算コストを発生させ、特に数十億のパラメータを持つモデルにおいて資源不足の環境では実用的ではない。
これらの課題に対処するため、過去の研究では、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキスト学習(ICL)を探求した。
しかし、iclはコンテキスト的に関連するプロンプトの設計やタスク固有のパラメータの学習の欠如といった不便さを導入し、ダウンストリームのタスクパフォーマンスを制限している。
この文脈では、適切な資源消費を維持しつつ、LLMをタスク固有のデータに効率的に専門化するための有望なアプローチとしてパラメータ効率の良い細調整(PEFT)技術が期待できる。
本稿では,自動コード生成シナリオにおけるLPMに対するPEFT手法の総合的研究を行う。
LLMのPEFT技術に関する包括的調査により,多種多様なLCMのICLに対する優位性と可能性を明らかにした。
さらに,PEFTの機能拡張を実演し,性能を損なうことなく2つの異なるデータセットから学習できることを示す。
さらに本研究では,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を強調した。
そこで本研究では,peftをソフトウェア工学のシナリオに適用する機会を与える。
私たちのコードはhttps://github.com/martin-wey/peft-llm-code/で利用可能です。
関連論文リスト
- LLM Inference Unveiled: Survey and Roofline Model Insights [64.33702161898469]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Towards Better Parameter-Efficient Fine-Tuning for Large Language
Models: A Position Paper [14.081178100662163]
この論文は差し迫った必要性を浮き彫りにする。
-大規模言語モデル(LLM)のための効率的な微細チューニング(PEFT)
本稿は,現状と今後の研究の必要性を明らかにするものである。
論文 参考訳(メタデータ) (2023-11-22T03:28:34Z) - More Samples or More Prompt Inputs? Exploring Effective In-Context
Sampling for LLM Few-Shot Prompt Engineering [34.767637344329835]
In-Context Smpling (ICS) を提案し、複数のICLプロンプト入力の構成を最適化することにより、最も確実な予測結果を生成する。
アブレーション研究は、多様性に基づくICS戦略がLCMの性能をさらに向上させる可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-16T11:02:49Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。