Fugu-MT 論文翻訳(概要): Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code

論文の概要: Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code

arxiv url: http://arxiv.org/abs/2310.10508v2
Date: Wed, 19 Feb 2025 22:37:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.161973
Title: Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code
Title（参考訳）: Prompt Engineering または Fine-Tuning: コードのための LLM の実証評価
Authors: Jiho Shin, Clark Tang, Tahmineh Mohati, Maleknaz Nayebi, Song Wang, Hadi Hemmati,
Abstract要約: 我々は,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いて,GPT-4を評価する。コード要約、生成、翻訳という3つのコード関連タスクに関する17の微調整モデルと比較する。
参考スコア（独自算出の注目度）: 7.760653867600283
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancements in large language models (LLMs) have greatly expanded the potential for automated code-related tasks. Two primary methodologies are used in this domain: prompt engineering and fine-tuning. Prompt engineering involves applying different strategies to query LLMs, like ChatGPT, while fine-tuning further adapts pre-trained models, such as CodeBERT, by training them on task-specific data. Despite the growth in the area, there remains a lack of comprehensive comparative analysis between the approaches for code models. In this paper, we evaluate GPT-4 using three prompt engineering strategies -- basic prompting, in-context learning, and task-specific prompting -- and compare it against 17 fine-tuned models across three code-related tasks: code summarization, generation, and translation. Our results indicate that GPT-4 with prompt engineering does not consistently outperform fine-tuned models. For instance, in code generation, GPT-4 is outperformed by fine-tuned models by 28.3% points on the MBPP dataset. It also shows mixed results for code translation tasks. Additionally, a user study was conducted involving 27 graduate students and 10 industry practitioners. The study revealed that GPT-4 with conversational prompts, incorporating human feedback during interaction, significantly improved performance compared to automated prompting. Participants often provided explicit instructions or added context during these interactions. These findings suggest that GPT-4 with conversational prompting holds significant promise for automated code-related tasks, whereas fully automated prompt engineering without human involvement still requires further investigation.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩は、自動化されたコード関連タスクの可能性を大幅に拡大した。この領域では、迅速なエンジニアリングと微調整という2つの主要な方法論が使われている。プロンプトエンジニアリングは、ChatGPTのようなLCMのクエリに異なる戦略を適用することを含み、微調整は、タスク固有のデータでトレーニングすることで、CodeBERTのようなトレーニング済みのモデルにさらに適応する。この分野の成長にもかかわらず、コードモデルに対するアプローチの間には包括的な比較分析が残っていない。本稿では,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いてGPT-4を評価し,コード要約,生成,翻訳という3つのコード関連タスクを対象とした17の微調整モデルと比較する。以上の結果から, GPT-4 は微調整モデルより常に優れていないことが示唆された。例えば、コード生成において、GPT-4はMBPPデータセットの28.3%の精度で微調整されたモデルより優れている。また、コード翻訳タスクの混合結果も示す。さらに,27人の大学院生と10人の業界実践者を対象としたユーザスタディを実施した。その結果,対話中の人間のフィードバックを取り入れた GPT-4 は,自動プロンプトよりも性能が有意に向上した。参加者はしばしば明示的な指示を提供したり、これらの相互作用の間に文脈を追加したりした。これらの結果から,対話的プロンプトを伴う GPT-4 はコード関連タスクの自動化に有意な可能性を秘めているが,人間の関与を伴わない完全自動プロンプトエンジニアリングにはさらなる調査が必要であることが示唆された。

関連論文リスト

Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
Automatic Generation of Question Hints for Mathematics Problems using Large Language Models in Educational Technology [17.91379291654773]
本研究は,Lumge Language Models (LLMs) を教師として用いて,LLMを通してシミュレーションした学生の効果的なヒントを生成することを目的とする。その結果, モデル誤差は温度設定の上昇とともに増加することがわかった。興味深いことに、教師としてのLlama-3-8B-インストラクションはGPT-4oよりも全体的なパフォーマンスが良かった。
論文参考訳（メタデータ） (2024-11-05T20:18:53Z)
Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions [2.0411082897313984]
本研究では, LLM, 特に GPT-3.5 と GPT-4 が, グレード9の算数に適した質問をいかに展開できるかを検討する。反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
論文参考訳（メタデータ） (2024-06-20T00:25:43Z)
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (2024-05-23T09:43:19Z)
Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文参考訳（メタデータ） (2024-03-07T12:37:52Z)
Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。 LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文参考訳（メタデータ） (2024-02-27T10:44:52Z)
Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation [4.941630596191807]
コードレビュー自動化にLLM(Large Language Models)を利用する場合、ファインチューニングとプロンプトが一般的なアプローチである。 LLMベースのコードレビュー自動化では、モデルファインチューニングと推論技術(ゼロショット学習、少数ショット学習、ペルソナ)を使用します。その結果、ゼロショット学習によるGPT-3.5は、Guoらのアプローチよりも73.17%-74.23%高いEMが得られることがわかった。
論文参考訳（メタデータ） (2024-02-01T03:10:26Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Automated DevOps Pipeline Generation for Code Repositories using Large Language Models [5.011328607647701]
調査では、GitHubの生成におけるGPT 3.5とGPT 4の習熟度を精査するとともに、最も効率的なパイプライン構築におけるさまざまなプロンプト要素の影響を評価している。 GPTは4。 Probot上に構築されたGitHubアプリを導入し、GitHubエコシステム内でワークフロー生成を自動化する。
論文参考訳（メタデータ） (2023-12-20T17:47:52Z)
Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文参考訳（メタデータ） (2023-10-03T14:51:34Z)
Code Soliloquies for Accurate Calculations in Large Language Models [22.1024285108075]
高品質な会話データセットは、Intelligent Tutoring Systemsの開発の成功に不可欠である。これらのデータセットは、高度なGPT-4モデルを用いて生成される。本設計では,GPT-4によって学生と教師の双方の役割をシミュレートした模擬会話を編成する。提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
論文参考訳（メタデータ） (2023-09-21T15:16:58Z)
Generalized Planning in PDDL Domains with Pretrained Large Language Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。 7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文参考訳（メタデータ） (2023-05-18T14:48:20Z)
AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (2023-05-04T02:09:43Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)
Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (2023-03-13T14:09:53Z)
TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文参考訳（メタデータ） (2022-11-21T22:38:20Z)
Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。 GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文参考訳（メタデータ） (2021-09-16T09:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。