Fugu-MT 論文翻訳(概要): Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation

論文の概要: Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation

arxiv url: http://arxiv.org/abs/2402.00905v3
Date: Thu, 2 May 2024 05:51:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 11:27:18.150010
Title: Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation
Title（参考訳）: 大規模言語モデルに基づくコードレビュー自動化のためのファインチューニングとプロンプトエンジニアリング
Authors: Chanathip Pornprasit, Chakkrit Tantithamthavorn,
Abstract要約: コードレビュー自動化にLLM(Large Language Models)を利用する場合、ファインチューニングとプロンプトが一般的なアプローチである。 LLMベースのコードレビュー自動化では、モデルファインチューニングと推論技術(ゼロショット学習、少数ショット学習、ペルソナ)を使用します。その結果、ゼロショット学習によるGPT-3.5は、Guoらのアプローチよりも73.17%-74.23%高いEMが得られることがわかった。
参考スコア（独自算出の注目度）: 4.941630596191807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Context: The rapid evolution of Large Language Models (LLMs) has sparked significant interest in leveraging their capabilities for automating code review processes. Prior studies often focus on developing LLMs for code review automation, yet require expensive resources, which is infeasible for organizations with limited budgets and resources. Thus, fine-tuning and prompt engineering are the two common approaches to leveraging LLMs for code review automation. Objective: We aim to investigate the performance of LLMs-based code review automation based on two contexts, i.e., when LLMs are leveraged by fine-tuning and prompting. Fine-tuning involves training the model on a specific code review dataset, while prompting involves providing explicit instructions to guide the model's generation process without requiring a specific code review dataset. Method: We leverage model fine-tuning and inference techniques (i.e., zero-shot learning, few-shot learning and persona) on LLMs-based code review automation. In total, we investigate 12 variations of two LLMs-based code review automation (i.e., GPT- 3.5 and Magicoder), and compare them with the Guo et al.'s approach and three existing code review automation approaches. Results: The fine-tuning of GPT 3.5 with zero-shot learning helps GPT-3.5 to achieve 73.17% -74.23% higher EM than the Guo et al.'s approach. In addition, when GPT-3.5 is not fine-tuned, GPT-3.5 with few-shot learning achieves 46.38% - 659.09% higher EM than GPT-3.5 with zero-shot learning. Conclusions: Based on our results, we recommend that (1) LLMs for code review automation should be fine-tuned to achieve the highest performance; and (2) when data is not sufficient for model fine-tuning (e.g., a cold-start problem), few-shot learning without a persona should be used for LLMs for code review automation.
Abstract（参考訳）: コンテキスト: 大規模言語モデル(LLM)の急速な進化は、コードレビュープロセスの自動化に彼らの能力を活用することに、大きな関心を喚起しました。以前の研究は、コードレビュー自動化のためのLLMの開発に注力することが多いが、高価なリソースを必要とするため、予算やリソースが限られている組織では不可能である。したがって、コードレビュー自動化にLLMを活用するための2つの一般的なアプローチは、微調整と迅速なエンジニアリングである。目的: LLMが微調整とプロンプトによって活用される場合の2つのコンテキストに基づいて,LLMベースのコードレビュー自動化の性能を検討することを目的とする。微調整には、特定のコードレビューデータセットでモデルをトレーニングすること、プロンプトには、特定のコードレビューデータセットを必要とせずに、モデル生成プロセスをガイドするための明確な命令を提供することが含まれる。方法: LLMベースのコードレビュー自動化において,モデルファインチューニングと推論技術(ゼロショット学習,少数ショット学習,ペルソナ)を活用する。総じて、2つのLCMベースのコードレビュー自動化(GPT-3.5とMagicoder)の12のバリエーションを調査し、それらをGuo et alのアプローチと既存のコードレビュー自動化アプローチ3つと比較する。結果: ゼロショット学習による GPT 3.5 の微調整により GPT-3.5 は 73.17% -74.23% の EM を達成することができる。さらに、GPT-3.5が微調整されていない場合、少数ショット学習のGPT-3.5は0ショット学習のGPT-3.5よりも46.38%から659.09%高いEMが得られる。結論: 結果から,(1) コードレビュー自動化のためのLLMは,最高のパフォーマンスを達成するために微調整する必要があること,(2) モデル微調整に十分なデータがない場合(例: コールドスタート問題)は,コードレビュー自動化のためのLLMにはペルソナを使わずに,ペルソナを使わなければならないこと,などが示唆された。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳（メタデータ） (2025-05-29T19:06:14Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文参考訳（メタデータ） (2024-07-09T05:48:42Z)
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。 AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文参考訳（メタデータ） (2024-06-19T13:29:53Z)
Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。 LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文参考訳（メタデータ） (2024-03-27T22:05:10Z)
Automated Data Curation for Robust Language Model Fine-Tuning [13.8454385440986]
本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。 CLEARは、どのトレーニングデータが低品質であるかを見積もる。実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
論文参考訳（メタデータ） (2024-03-19T14:44:45Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code [7.760653867600283]
我々は,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いて,GPT-4を評価する。コード要約、生成、翻訳という3つのコード関連タスクに関する17の微調整モデルと比較する。
論文参考訳（メタデータ） (2023-10-11T00:21:00Z)
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (2023-09-28T16:43:35Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。