論文の概要: Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2310.10508v1
- Date: Wed, 11 Oct 2023 00:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 02:30:50.278412
- Title: Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks
- Title(参考訳): Prompt Engineering or Fine Tuning: 自動ソフトウェアエンジニアリングタスクにおける大規模言語モデルの実証評価
- Authors: Jiho Shin, Clark Tang, Tahmineh Mohati, Maleknaz Nayebi, Song Wang,
Hadi Hemmati
- Abstract要約: 対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
- 参考スコア(独自算出の注目度): 8.223311621898983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the effectiveness of state-of-the-art LLM,
i.e., GPT-4, with three different prompting engineering techniques (i.e., basic
prompting, in-context learning, and task-specific prompting) against 18
fine-tuned LLMs on three typical ASE tasks, i.e., code generation, code
summarization, and code translation. Our quantitative analysis of these
prompting strategies suggests that prompt engineering GPT-4 cannot necessarily
and significantly outperform fine-tuning smaller/older LLMs in all three tasks.
For comment generation, GPT-4 with the best prompting strategy (i.e.,
task-specific prompt) had outperformed the first-ranked fine-tuned model by
8.33% points on average in BLEU. However, for code generation, the first-ranked
fine-tuned model outperforms GPT-4 with best prompting by 16.61% and 28.3%
points, on average in BLEU. For code translation, GPT-4 and fine-tuned
baselines tie as they outperform each other on different translation tasks. To
explore the impact of different prompting strategies, we conducted a user study
with 27 graduate students and 10 industry practitioners. From our qualitative
analysis, we find that the GPT-4 with conversational prompts (i.e., when a
human provides feedback and instructions back and forth with a model to achieve
best results) showed drastic improvement compared to GPT-4 with automatic
prompting strategies. Moreover, we observe that participants tend to request
improvements, add more context, or give specific instructions as conversational
prompts, which goes beyond typical and generic prompting strategies. Our study
suggests that, at its current state, GPT-4 with conversational prompting has
great potential for ASE tasks, but fully automated prompt engineering with no
human in the loop requires more study and improvement.
- Abstract(参考訳): 本稿では,3つの典型的なASEタスク,すなわちコード生成,コード要約,コード翻訳に対して,3つの異なるプロンプト技術(基本的プロンプト,テキスト内学習,タスク固有プロンプト)を用いて,最先端のLCM(GPT-4)の有効性を検討する。
これらのプロンプト戦略を定量的に分析した結果,プロンプトエンジニアリングgpt-4は3つのタスクすべてにおいて,微調整された小/小のllmを必ずしも上回ってはいないことが示唆された。
コメント生成において、最高のプロンプト戦略(すなわちタスク固有のプロンプト)を持つGPT-4はBLEUの平均8.33%の精度で第1級微調整モデルを上回った。
しかし、コード生成において、最初の微調整されたモデルは、BLEUで平均16.61%、28.3%の精度でGPT-4より優れている。
コード翻訳では、GPT-4と微調整されたベースラインは、異なる翻訳タスクにおいて互いに優れる。
異なるプロンプト戦略の影響を探るために,27人の大学院生と10人の業界実践者を対象に,ユーザ調査を行った。
質的な分析から,対話的プロンプトを持つ GPT-4 は,対話的プロンプトを持つ GPT-4 に対して,自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善が見られた。
さらに、参加者は改善を要求したり、より多くのコンテキストを追加したり、会話的なプロンプトとして特定の指示を与える傾向があります。
本研究は,現在,対話型プロンプトによるgpt-4は,aseタスクに対して大きな可能性を秘めているが,ループ内に人間がいない完全に自動化されたプロンプトエンジニアリングでは,さらなる研究と改善が必要であることを示唆する。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。
そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。
我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文 参考訳(メタデータ) (2024-05-23T09:43:19Z) - Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文 参考訳(メタデータ) (2024-03-07T12:37:52Z) - Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation [4.941630596191807]
コードレビュー自動化にLLM(Large Language Models)を利用する場合、ファインチューニングとプロンプトが一般的なアプローチである。
LLMベースのコードレビュー自動化では、モデルファインチューニングと推論技術(ゼロショット学習、少数ショット学習、ペルソナ)を使用します。
その結果、ゼロショット学習によるGPT-3.5は、Guoらのアプローチよりも73.17%-74.23%高いEMが得られることがわかった。
論文 参考訳(メタデータ) (2024-02-01T03:10:26Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Automated DevOps Pipeline Generation for Code Repositories using Large
Language Models [5.011328607647701]
調査では、GitHubの生成におけるGPT 3.5とGPT 4の習熟度を精査するとともに、最も効率的なパイプライン構築におけるさまざまなプロンプト要素の影響を評価している。
GPTは4。
Probot上に構築されたGitHubアプリを導入し、GitHubエコシステム内でワークフロー生成を自動化する。
論文 参考訳(メタデータ) (2023-12-20T17:47:52Z) - Code Soliloquies for Accurate Calculations in Large Language Models [22.1024285108075]
高品質な会話データセットは、Intelligent Tutoring Systemsの開発の成功に不可欠である。
これらのデータセットは、高度なGPT-4モデルを用いて生成される。
本設計では,GPT-4によって学生と教師の双方の役割をシミュレートした模擬会話を編成する。
提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
論文 参考訳(メタデータ) (2023-09-21T15:16:58Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。