論文の概要: Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code
- arxiv url: http://arxiv.org/abs/2310.10508v2
- Date: Wed, 19 Feb 2025 22:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:43:37.240892
- Title: Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code
- Title(参考訳): Prompt Engineering または Fine-Tuning: コードのための LLM の実証評価
- Authors: Jiho Shin, Clark Tang, Tahmineh Mohati, Maleknaz Nayebi, Song Wang, Hadi Hemmati,
- Abstract要約: 我々は,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いて,GPT-4を評価する。
コード要約、生成、翻訳という3つのコード関連タスクに関する17の微調整モデルと比較する。
- 参考スコア(独自算出の注目度): 7.760653867600283
- License:
- Abstract: The rapid advancements in large language models (LLMs) have greatly expanded the potential for automated code-related tasks. Two primary methodologies are used in this domain: prompt engineering and fine-tuning. Prompt engineering involves applying different strategies to query LLMs, like ChatGPT, while fine-tuning further adapts pre-trained models, such as CodeBERT, by training them on task-specific data. Despite the growth in the area, there remains a lack of comprehensive comparative analysis between the approaches for code models. In this paper, we evaluate GPT-4 using three prompt engineering strategies -- basic prompting, in-context learning, and task-specific prompting -- and compare it against 17 fine-tuned models across three code-related tasks: code summarization, generation, and translation. Our results indicate that GPT-4 with prompt engineering does not consistently outperform fine-tuned models. For instance, in code generation, GPT-4 is outperformed by fine-tuned models by 28.3% points on the MBPP dataset. It also shows mixed results for code translation tasks. Additionally, a user study was conducted involving 27 graduate students and 10 industry practitioners. The study revealed that GPT-4 with conversational prompts, incorporating human feedback during interaction, significantly improved performance compared to automated prompting. Participants often provided explicit instructions or added context during these interactions. These findings suggest that GPT-4 with conversational prompting holds significant promise for automated code-related tasks, whereas fully automated prompt engineering without human involvement still requires further investigation.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、自動化されたコード関連タスクの可能性を大幅に拡大した。
この領域では、迅速なエンジニアリングと微調整という2つの主要な方法論が使われている。
プロンプトエンジニアリングは、ChatGPTのようなLCMのクエリに異なる戦略を適用することを含み、微調整は、タスク固有のデータでトレーニングすることで、CodeBERTのようなトレーニング済みのモデルにさらに適応する。
この分野の成長にもかかわらず、コードモデルに対するアプローチの間には包括的な比較分析が残っていない。
本稿では,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いてGPT-4を評価し,コード要約,生成,翻訳という3つのコード関連タスクを対象とした17の微調整モデルと比較する。
以上の結果から, GPT-4 は微調整モデルより常に優れていないことが示唆された。
例えば、コード生成において、GPT-4はMBPPデータセットの28.3%の精度で微調整されたモデルより優れている。
また、コード翻訳タスクの混合結果も示す。
さらに,27人の大学院生と10人の業界実践者を対象としたユーザスタディを実施した。
その結果,対話中の人間のフィードバックを取り入れた GPT-4 は,自動プロンプトよりも性能が有意に向上した。
参加者はしばしば明示的な指示を提供したり、これらの相互作用の間に文脈を追加したりした。
これらの結果から,対話的プロンプトを伴う GPT-4 はコード関連タスクの自動化に有意な可能性を秘めているが,人間の関与を伴わない完全自動プロンプトエンジニアリングにはさらなる調査が必要であることが示唆された。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文 参考訳(メタデータ) (2024-03-07T12:37:52Z) - Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation [4.941630596191807]
コードレビュー自動化にLLM(Large Language Models)を利用する場合、ファインチューニングとプロンプトが一般的なアプローチである。
LLMベースのコードレビュー自動化では、モデルファインチューニングと推論技術(ゼロショット学習、少数ショット学習、ペルソナ)を使用します。
その結果、ゼロショット学習によるGPT-3.5は、Guoらのアプローチよりも73.17%-74.23%高いEMが得られることがわかった。
論文 参考訳(メタデータ) (2024-02-01T03:10:26Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Automated DevOps Pipeline Generation for Code Repositories using Large
Language Models [5.011328607647701]
調査では、GitHubの生成におけるGPT 3.5とGPT 4の習熟度を精査するとともに、最も効率的なパイプライン構築におけるさまざまなプロンプト要素の影響を評価している。
GPTは4。
Probot上に構築されたGitHubアプリを導入し、GitHubエコシステム内でワークフロー生成を自動化する。
論文 参考訳(メタデータ) (2023-12-20T17:47:52Z) - Code Soliloquies for Accurate Calculations in Large Language Models [22.1024285108075]
高品質な会話データセットは、Intelligent Tutoring Systemsの開発の成功に不可欠である。
これらのデータセットは、高度なGPT-4モデルを用いて生成される。
本設計では,GPT-4によって学生と教師の双方の役割をシミュレートした模擬会話を編成する。
提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
論文 参考訳(メタデータ) (2023-09-21T15:16:58Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。