論文の概要: GPT-3.5 for Code Review Automation: How Do Few-Shot Learning, Prompt
Design, and Model Fine-Tuning Impact Their Performance?
- arxiv url: http://arxiv.org/abs/2402.00905v1
- Date: Thu, 1 Feb 2024 03:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:16:09.878551
- Title: GPT-3.5 for Code Review Automation: How Do Few-Shot Learning, Prompt
Design, and Model Fine-Tuning Impact Their Performance?
- Title(参考訳): GPT-3.5 for Code Review Automation: Few-Shot Learning, Prompt Design, Model Fine-Tuning はパフォーマンスにどのように影響するか?
- Authors: Chanathip Pornprasit and Chakkrit Tantithamthavorn
- Abstract要約: コードレビュー自動化タスクにおいて, GPT-3.5における数ショット学習, プロンプト設計, モデル微調整が与える影響について検討する。
GPT-3.5は、0ショット学習を行う場合、少なくとも46.38%、CodeBLEUは3.97%向上することがわかった。
- 参考スコア(独自算出の注目度): 5.837881923712394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, several large language models (LLMs)-the large pre-trained models
based on the transformer architecture-were proposed. Prior studies in the
natural language processing field and software engineering field conducted
experiments focusing on different approaches to leveraging LLMs for downstream
tasks. However, the existing literature still lacks the study of different
approaches to leveraging GPT-3.5 (e.g., prompt engineering, few-shot learning
and model fine-tuning) for the code review automation task (i.e., automatically
generating improved code from submitted code). Thus, little is known about how
GPT-3.5 should be leveraged for this task. To fill this knowledge gap, we set
out to investigate the impact of few-shot learning, prompt design (i.e., using
a persona pattern), and model fine-tuning on GPT-3.5 for the code review
automation task. Through the experimental study of the three code review
automation datasets, we find that (1) when few-shot learning is performed,
GPT-3.5 achieves at least 46.38% higher Exact Match and at least 3.97% higher
CodeBLEU than GPT-3.5 that zero-shot learning is performed, (2) when persona is
included in input prompts to generate improved code, GPT-3.5 achieves at least
1.02% lower Exact Match and 0.15% lower CodeBLEU than when persona is not
included in input prompts, (3) fine-tuned GPT-3.5 achieves at least 9.74%
higher Exact Match and 0.12% higher CodeBLEU than GPT-3.5 that zero-shot and
few-shot learning is performed, and (4) fine-tuned GPT-3.5 achieves at least
11.48% higher Exact Match than the existing code review automation approaches.
Based on our experiment results, we recommend that when using GPT-3.5 for code
review automation (1) few-shot learning should be performed rather than
zero-shot learning, (2) persona should not be included when constructing
prompts, and (3) GPT-3.5 should be fine-tuned by using a small training
dataset.
- Abstract(参考訳): 近年,変圧器アーキテクチャに基づく大規模事前学習モデル (LLM) が提案されている。
自然言語処理分野とソフトウェア工学分野における先行研究は、下流タスクにLLMを活用する様々なアプローチに焦点を当てた実験を行った。
しかし、既存の文献は、コードレビュー自動化タスク(つまり、提出されたコードから改善されたコードを自動的に生成する)にGPT-3.5(即時エンジニアリング、数発の学習、モデル微調整)を活用するための様々なアプローチの研究を欠いている。
したがって、GPT-3.5をどう活用すべきかは分かっていない。
この知識ギャップを埋めるため,コードレビュー自動化タスクの GPT-3.5 上で,少数ショット学習の影響,設計の促進(ペルソナパターンの使用),およびモデル微調整を行った。
Through the experimental study of the three code review automation datasets, we find that (1) when few-shot learning is performed, GPT-3.5 achieves at least 46.38% higher Exact Match and at least 3.97% higher CodeBLEU than GPT-3.5 that zero-shot learning is performed, (2) when persona is included in input prompts to generate improved code, GPT-3.5 achieves at least 1.02% lower Exact Match and 0.15% lower CodeBLEU than when persona is not included in input prompts, (3) fine-tuned GPT-3.5 achieves at least 9.74% higher Exact Match and 0.12% higher CodeBLEU than GPT-3.5 that zero-shot and few-shot learning is performed, and (4) fine-tuned GPT-3.5 achieves at least 11.48% higher Exact Match than the existing code review automation approaches.
本実験結果に基づき,コードレビュー自動化にgpt-3.5を使用する場合,(1)ゼロショット学習ではなく,少数ショット学習を行なわなければならない,(2)プロンプト構築時にペルソナを含めるべきでないこと,(3)小さなトレーニングデータセットを用いて,gpt-3.5を微調整すべきであることを推奨する。
関連論文リスト
- GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code [7.760653867600283]
我々は,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いて,GPT-4を評価する。
コード要約、生成、翻訳という3つのコード関連タスクに関する17の微調整モデルと比較する。
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。