論文の概要: Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2310.10508v1
- Date: Wed, 11 Oct 2023 00:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 02:30:50.278412
- Title: Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks
- Title(参考訳): Prompt Engineering or Fine Tuning: 自動ソフトウェアエンジニアリングタスクにおける大規模言語モデルの実証評価
- Authors: Jiho Shin, Clark Tang, Tahmineh Mohati, Maleknaz Nayebi, Song Wang,
Hadi Hemmati
- Abstract要約: 対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
- 参考スコア(独自算出の注目度): 8.223311621898983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the effectiveness of state-of-the-art LLM,
i.e., GPT-4, with three different prompting engineering techniques (i.e., basic
prompting, in-context learning, and task-specific prompting) against 18
fine-tuned LLMs on three typical ASE tasks, i.e., code generation, code
summarization, and code translation. Our quantitative analysis of these
prompting strategies suggests that prompt engineering GPT-4 cannot necessarily
and significantly outperform fine-tuning smaller/older LLMs in all three tasks.
For comment generation, GPT-4 with the best prompting strategy (i.e.,
task-specific prompt) had outperformed the first-ranked fine-tuned model by
8.33% points on average in BLEU. However, for code generation, the first-ranked
fine-tuned model outperforms GPT-4 with best prompting by 16.61% and 28.3%
points, on average in BLEU. For code translation, GPT-4 and fine-tuned
baselines tie as they outperform each other on different translation tasks. To
explore the impact of different prompting strategies, we conducted a user study
with 27 graduate students and 10 industry practitioners. From our qualitative
analysis, we find that the GPT-4 with conversational prompts (i.e., when a
human provides feedback and instructions back and forth with a model to achieve
best results) showed drastic improvement compared to GPT-4 with automatic
prompting strategies. Moreover, we observe that participants tend to request
improvements, add more context, or give specific instructions as conversational
prompts, which goes beyond typical and generic prompting strategies. Our study
suggests that, at its current state, GPT-4 with conversational prompting has
great potential for ASE tasks, but fully automated prompt engineering with no
human in the loop requires more study and improvement.
- Abstract(参考訳): 本稿では,3つの典型的なASEタスク,すなわちコード生成,コード要約,コード翻訳に対して,3つの異なるプロンプト技術(基本的プロンプト,テキスト内学習,タスク固有プロンプト)を用いて,最先端のLCM(GPT-4)の有効性を検討する。
これらのプロンプト戦略を定量的に分析した結果,プロンプトエンジニアリングgpt-4は3つのタスクすべてにおいて,微調整された小/小のllmを必ずしも上回ってはいないことが示唆された。
コメント生成において、最高のプロンプト戦略(すなわちタスク固有のプロンプト)を持つGPT-4はBLEUの平均8.33%の精度で第1級微調整モデルを上回った。
しかし、コード生成において、最初の微調整されたモデルは、BLEUで平均16.61%、28.3%の精度でGPT-4より優れている。
コード翻訳では、GPT-4と微調整されたベースラインは、異なる翻訳タスクにおいて互いに優れる。
異なるプロンプト戦略の影響を探るために,27人の大学院生と10人の業界実践者を対象に,ユーザ調査を行った。
質的な分析から,対話的プロンプトを持つ GPT-4 は,対話的プロンプトを持つ GPT-4 に対して,自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善が見られた。
さらに、参加者は改善を要求したり、より多くのコンテキストを追加したり、会話的なプロンプトとして特定の指示を与える傾向があります。
本研究は,現在,対話型プロンプトによるgpt-4は,aseタスクに対して大きな可能性を秘めているが,ループ内に人間がいない完全に自動化されたプロンプトエンジニアリングでは,さらなる研究と改善が必要であることを示唆する。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Automatic Generation of Question Hints for Mathematics Problems using Large Language Models in Educational Technology [17.91379291654773]
本研究は,Lumge Language Models (LLMs) を教師として用いて,LLMを通してシミュレーションした学生の効果的なヒントを生成することを目的とする。
その結果, モデル誤差は温度設定の上昇とともに増加することがわかった。
興味深いことに、教師としてのLlama-3-8B-インストラクションはGPT-4oよりも全体的なパフォーマンスが良かった。
論文 参考訳(メタデータ) (2024-11-05T20:18:53Z) - Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions [2.0411082897313984]
本研究では, LLM, 特に GPT-3.5 と GPT-4 が, グレード9の算数に適した質問をいかに展開できるかを検討する。
反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
論文 参考訳(メタデータ) (2024-06-20T00:25:43Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。
レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。
本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文 参考訳(メタデータ) (2023-10-03T14:51:34Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。