Fugu-MT 論文翻訳(概要): Prompt Engineering or Fine Tuning: An Empirical Assessment of Large Language Models in Automated Software Engineering Tasks

論文の概要: Prompt Engineering or Fine Tuning: An Empirical Assessment of Large Language Models in Automated Software Engineering Tasks

arxiv url: http://arxiv.org/abs/2310.10508v1
Date: Wed, 11 Oct 2023 00:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 02:30:50.278412
Title: Prompt Engineering or Fine Tuning: An Empirical Assessment of Large Language Models in Automated Software Engineering Tasks
Title（参考訳）: Prompt Engineering or Fine Tuning: 自動ソフトウェアエンジニアリングタスクにおける大規模言語モデルの実証評価
Authors: Jiho Shin, Clark Tang, Tahmineh Mohati, Maleknaz Nayebi, Song Wang, Hadi Hemmati
Abstract要約: 対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。完全に自動化されたプロンプトエンジニアリングループに人間はいないより多くの研究と改善が必要です
参考スコア（独自算出の注目度）: 8.223311621898983
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we investigate the effectiveness of state-of-the-art LLM, i.e., GPT-4, with three different prompting engineering techniques (i.e., basic prompting, in-context learning, and task-specific prompting) against 18 fine-tuned LLMs on three typical ASE tasks, i.e., code generation, code summarization, and code translation. Our quantitative analysis of these prompting strategies suggests that prompt engineering GPT-4 cannot necessarily and significantly outperform fine-tuning smaller/older LLMs in all three tasks. For comment generation, GPT-4 with the best prompting strategy (i.e., task-specific prompt) had outperformed the first-ranked fine-tuned model by 8.33% points on average in BLEU. However, for code generation, the first-ranked fine-tuned model outperforms GPT-4 with best prompting by 16.61% and 28.3% points, on average in BLEU. For code translation, GPT-4 and fine-tuned baselines tie as they outperform each other on different translation tasks. To explore the impact of different prompting strategies, we conducted a user study with 27 graduate students and 10 industry practitioners. From our qualitative analysis, we find that the GPT-4 with conversational prompts (i.e., when a human provides feedback and instructions back and forth with a model to achieve best results) showed drastic improvement compared to GPT-4 with automatic prompting strategies. Moreover, we observe that participants tend to request improvements, add more context, or give specific instructions as conversational prompts, which goes beyond typical and generic prompting strategies. Our study suggests that, at its current state, GPT-4 with conversational prompting has great potential for ASE tasks, but fully automated prompt engineering with no human in the loop requires more study and improvement.
Abstract（参考訳）: 本稿では,3つの典型的なASEタスク,すなわちコード生成,コード要約,コード翻訳に対して,3つの異なるプロンプト技術(基本的プロンプト,テキスト内学習,タスク固有プロンプト)を用いて,最先端のLCM(GPT-4)の有効性を検討する。これらのプロンプト戦略を定量的に分析した結果,プロンプトエンジニアリングgpt-4は3つのタスクすべてにおいて,微調整された小/小のllmを必ずしも上回ってはいないことが示唆された。コメント生成において、最高のプロンプト戦略(すなわちタスク固有のプロンプト)を持つGPT-4はBLEUの平均8.33%の精度で第1級微調整モデルを上回った。しかし、コード生成において、最初の微調整されたモデルは、BLEUで平均16.61%、28.3%の精度でGPT-4より優れている。コード翻訳では、GPT-4と微調整されたベースラインは、異なる翻訳タスクにおいて互いに優れる。異なるプロンプト戦略の影響を探るために,27人の大学院生と10人の業界実践者を対象に,ユーザ調査を行った。質的な分析から,対話的プロンプトを持つ GPT-4 は,対話的プロンプトを持つ GPT-4 に対して,自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善が見られた。さらに、参加者は改善を要求したり、より多くのコンテキストを追加したり、会話的なプロンプトとして特定の指示を与える傾向があります。本研究は,現在,対話型プロンプトによるgpt-4は,aseタスクに対して大きな可能性を秘めているが,ループ内に人間がいない完全に自動化されたプロンプトエンジニアリングでは,さらなる研究と改善が必要であることを示唆する。

関連論文リスト

Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
Automatic Generation of Question Hints for Mathematics Problems using Large Language Models in Educational Technology [17.91379291654773]
本研究は,Lumge Language Models (LLMs) を教師として用いて,LLMを通してシミュレーションした学生の効果的なヒントを生成することを目的とする。その結果, モデル誤差は温度設定の上昇とともに増加することがわかった。興味深いことに、教師としてのLlama-3-8B-インストラクションはGPT-4oよりも全体的なパフォーマンスが良かった。
論文参考訳（メタデータ） (2024-11-05T20:18:53Z)
Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions [2.0411082897313984]
本研究では, LLM, 特に GPT-3.5 と GPT-4 が, グレード9の算数に適した質問をいかに展開できるかを検討する。反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
論文参考訳（メタデータ） (2024-06-20T00:25:43Z)
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (2024-05-23T09:43:19Z)
Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文参考訳（メタデータ） (2024-03-07T12:37:52Z)
Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。 LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文参考訳（メタデータ） (2024-02-27T10:44:52Z)
Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation [4.941630596191807]
コードレビュー自動化にLLM(Large Language Models)を利用する場合、ファインチューニングとプロンプトが一般的なアプローチである。 LLMベースのコードレビュー自動化では、モデルファインチューニングと推論技術(ゼロショット学習、少数ショット学習、ペルソナ)を使用します。その結果、ゼロショット学習によるGPT-3.5は、Guoらのアプローチよりも73.17%-74.23%高いEMが得られることがわかった。
論文参考訳（メタデータ） (2024-02-01T03:10:26Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Automated DevOps Pipeline Generation for Code Repositories using Large Language Models [5.011328607647701]
調査では、GitHubの生成におけるGPT 3.5とGPT 4の習熟度を精査するとともに、最も効率的なパイプライン構築におけるさまざまなプロンプト要素の影響を評価している。 GPTは4。 Probot上に構築されたGitHubアプリを導入し、GitHubエコシステム内でワークフロー生成を自動化する。
論文参考訳（メタデータ） (2023-12-20T17:47:52Z)
Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文参考訳（メタデータ） (2023-10-03T14:51:34Z)
Code Soliloquies for Accurate Calculations in Large Language Models [22.1024285108075]
高品質な会話データセットは、Intelligent Tutoring Systemsの開発の成功に不可欠である。これらのデータセットは、高度なGPT-4モデルを用いて生成される。本設計では,GPT-4によって学生と教師の双方の役割をシミュレートした模擬会話を編成する。提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
論文参考訳（メタデータ） (2023-09-21T15:16:58Z)
Generalized Planning in PDDL Domains with Pretrained Large Language Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。 7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文参考訳（メタデータ） (2023-05-18T14:48:20Z)
AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (2023-05-04T02:09:43Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)
Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (2023-03-13T14:09:53Z)
TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文参考訳（メタデータ） (2022-11-21T22:38:20Z)
Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。 GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文参考訳（メタデータ） (2021-09-16T09:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。