論文の概要: The Impact of Prompt Programming on Function-Level Code Generation
- arxiv url: http://arxiv.org/abs/2412.20545v1
- Date: Sun, 29 Dec 2024 18:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:55.426011
- Title: The Impact of Prompt Programming on Function-Level Code Generation
- Title(参考訳): プロンプトプログラミングが関数レベルコード生成に及ぼす影響
- Authors: Ranim Khojah, Francisco Gomes de Oliveira Neto, Mazen Mohamad, Philipp Leitner,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成にソフトウェアエンジニアによってますます利用されている。
我々は,5つのプロンプトテクニックを評価するために設計された7072プロンプトのデータセットであるCodePromptEvalを紹介する。
その結果,特定のプロンプト手法が生成したコードに顕著に影響を及ぼすが,複数の手法を組み合わせることで必ずしも結果が向上するとは限らないことがわかった。
- 参考スコア(独自算出の注目度): 3.072802875195726
- License:
- Abstract: Large Language Models (LLMs) are increasingly used by software engineers for code generation. However, limitations of LLMs such as irrelevant or incorrect code have highlighted the need for prompt programming (or prompt engineering) where engineers apply specific prompt techniques (e.g., chain-of-thought or input-output examples) to improve the generated code. Despite this, the impact of different prompt techniques -- and their combinations -- on code generation remains underexplored. In this study, we introduce CodePromptEval, a dataset of 7072 prompts designed to evaluate five prompt techniques (few-shot, persona, chain-of-thought, function signature, list of packages) and their effect on the correctness, similarity, and quality of complete functions generated by three LLMs (GPT-4o, Llama3, and Mistral). Our findings show that while certain prompt techniques significantly influence the generated code, combining multiple techniques does not necessarily improve the outcome. Additionally, we observed a trade-off between correctness and quality when using prompt techniques. Our dataset and replication package enable future research on improving LLM-generated code and evaluating new prompt techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成にソフトウェアエンジニアによってますます利用されている。
しかしながら、無関係なコードや不正なコードのようなLLMの制限は、生成したコードを改善するために特定のプロンプト技術(例えば、チェーン・オブ・プットやインプット・アウトプットの例)を適用するプロンプトプログラミング(またはプロンプトエンジニアリング)の必要性を強調している。
それにもかかわらず、コード生成に対する異なるプロンプトテクニックとそれらの組み合わせの影響は、まだ過小評価されていない。
本研究では,7072のプロンプト(Fw-shot, Persona, chain-of- Thought, function signature, list of package)と,3つのLLM(GPT-4o, Llama3, Mistral)が生成する完全関数の正しさ,類似性,品質に対する効果を評価するためのデータセットであるCodePromptEvalを紹介する。
その結果,特定のプロンプト手法が生成したコードに顕著に影響を及ぼすが,複数の手法を組み合わせることで必ずしも結果が向上するとは限らないことがわかった。
さらに,プロンプト技術を用いた場合の正しさと品質のトレードオフも観察した。
我々のデータセットと複製パッケージは、将来のLLM生成コードの改善と新しいプロンプト技術の評価を可能にする。
関連論文リスト
- Prompting Techniques for Secure Code Generation: A Systematic Investigation [4.777102838267181]
大規模言語モデル(LLM)は、プロンプト駆動プログラミングによるソフトウェア開発で勢いを増している。
LLMによるNL命令から生成されたコードのセキュリティに異なるプロンプト技術が与える影響について検討する。
論文 参考訳(メタデータ) (2024-07-09T17:38:03Z) - Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。