Fugu-MT 論文翻訳(概要): GPT-3.5 for Code Review Automation: How Do Few-Shot Learning, Prompt Design, and Model Fine-Tuning Impact Their Performance?

論文の概要: GPT-3.5 for Code Review Automation: How Do Few-Shot Learning, Prompt Design, and Model Fine-Tuning Impact Their Performance?

arxiv url: http://arxiv.org/abs/2402.00905v1
Date: Thu, 1 Feb 2024 03:10:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 18:16:09.878551
Title: GPT-3.5 for Code Review Automation: How Do Few-Shot Learning, Prompt Design, and Model Fine-Tuning Impact Their Performance?
Title（参考訳）: GPT-3.5 for Code Review Automation: Few-Shot Learning, Prompt Design, Model Fine-Tuning はパフォーマンスにどのように影響するか?
Authors: Chanathip Pornprasit and Chakkrit Tantithamthavorn
Abstract要約: コードレビュー自動化タスクにおいて, GPT-3.5における数ショット学習, プロンプト設計, モデル微調整が与える影響について検討する。 GPT-3.5は、0ショット学習を行う場合、少なくとも46.38%、CodeBLEUは3.97%向上することがわかった。
参考スコア（独自算出の注目度）: 5.837881923712394
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, several large language models (LLMs)-the large pre-trained models based on the transformer architecture-were proposed. Prior studies in the natural language processing field and software engineering field conducted experiments focusing on different approaches to leveraging LLMs for downstream tasks. However, the existing literature still lacks the study of different approaches to leveraging GPT-3.5 (e.g., prompt engineering, few-shot learning and model fine-tuning) for the code review automation task (i.e., automatically generating improved code from submitted code). Thus, little is known about how GPT-3.5 should be leveraged for this task. To fill this knowledge gap, we set out to investigate the impact of few-shot learning, prompt design (i.e., using a persona pattern), and model fine-tuning on GPT-3.5 for the code review automation task. Through the experimental study of the three code review automation datasets, we find that (1) when few-shot learning is performed, GPT-3.5 achieves at least 46.38% higher Exact Match and at least 3.97% higher CodeBLEU than GPT-3.5 that zero-shot learning is performed, (2) when persona is included in input prompts to generate improved code, GPT-3.5 achieves at least 1.02% lower Exact Match and 0.15% lower CodeBLEU than when persona is not included in input prompts, (3) fine-tuned GPT-3.5 achieves at least 9.74% higher Exact Match and 0.12% higher CodeBLEU than GPT-3.5 that zero-shot and few-shot learning is performed, and (4) fine-tuned GPT-3.5 achieves at least 11.48% higher Exact Match than the existing code review automation approaches. Based on our experiment results, we recommend that when using GPT-3.5 for code review automation (1) few-shot learning should be performed rather than zero-shot learning, (2) persona should not be included when constructing prompts, and (3) GPT-3.5 should be fine-tuned by using a small training dataset.
Abstract（参考訳）: 近年,変圧器アーキテクチャに基づく大規模事前学習モデル (LLM) が提案されている。自然言語処理分野とソフトウェア工学分野における先行研究は、下流タスクにLLMを活用する様々なアプローチに焦点を当てた実験を行った。しかし、既存の文献は、コードレビュー自動化タスク(つまり、提出されたコードから改善されたコードを自動的に生成する)にGPT-3.5(即時エンジニアリング、数発の学習、モデル微調整)を活用するための様々なアプローチの研究を欠いている。したがって、GPT-3.5をどう活用すべきかは分かっていない。この知識ギャップを埋めるため,コードレビュー自動化タスクの GPT-3.5 上で,少数ショット学習の影響,設計の促進(ペルソナパターンの使用),およびモデル微調整を行った。 Through the experimental study of the three code review automation datasets, we find that (1) when few-shot learning is performed, GPT-3.5 achieves at least 46.38% higher Exact Match and at least 3.97% higher CodeBLEU than GPT-3.5 that zero-shot learning is performed, (2) when persona is included in input prompts to generate improved code, GPT-3.5 achieves at least 1.02% lower Exact Match and 0.15% lower CodeBLEU than when persona is not included in input prompts, (3) fine-tuned GPT-3.5 achieves at least 9.74% higher Exact Match and 0.12% higher CodeBLEU than GPT-3.5 that zero-shot and few-shot learning is performed, and (4) fine-tuned GPT-3.5 achieves at least 11.48% higher Exact Match than the existing code review automation approaches. 本実験結果に基づき,コードレビュー自動化にgpt-3.5を使用する場合,(1)ゼロショット学習ではなく,少数ショット学習を行なわなければならない,(2)プロンプト構築時にペルソナを含めるべきでないこと,(3)小さなトレーニングデータセットを用いて,gpt-3.5を微調整すべきであることを推奨する。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳（メタデータ） (2025-05-29T19:06:14Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文参考訳（メタデータ） (2024-07-09T05:48:42Z)
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。 AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文参考訳（メタデータ） (2024-06-19T13:29:53Z)
Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。 LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文参考訳（メタデータ） (2024-03-27T22:05:10Z)
Automated Data Curation for Robust Language Model Fine-Tuning [13.8454385440986]
本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。 CLEARは、どのトレーニングデータが低品質であるかを見積もる。実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
論文参考訳（メタデータ） (2024-03-19T14:44:45Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code [7.760653867600283]
我々は,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いて,GPT-4を評価する。コード要約、生成、翻訳という3つのコード関連タスクに関する17の微調整モデルと比較する。
論文参考訳（メタデータ） (2023-10-11T00:21:00Z)
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (2023-09-28T16:43:35Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。