Fugu-MT 論文翻訳(概要): Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

論文の概要: Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

arxiv url: http://arxiv.org/abs/2601.13118v1
Date: Mon, 19 Jan 2026 15:01:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.941387
Title: Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization
Title（参考訳）: コード生成のための大規模言語モデルを示すガイドライン:実証的特徴
Authors: Alessandro Midolo, Alessandro Giagnorio, Fiorella Zampetti, Rosalia Tufano, Gabriele Bavota, Massimiliano Di Penta,
Abstract要約: 我々は、開発固有のプロンプト最適化ガイドラインを導出し、評価する。コード生成プロンプトを自動的に洗練するために、反復的でテスト駆動のアプローチを使用します。我々は50人の実践者と評価を行い,提案した即興改善パターンの使用状況について報告する。
参考スコア（独自算出の注目度）: 82.29178197694819
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are nowadays extensively used for various types of software engineering tasks, primarily code generation. Previous research has shown how suitable prompt engineering could help developers in improving their code generation prompts. However, so far, there do not exist specific guidelines driving developers towards writing suitable prompts for code generation. In this work, we derive and evaluate development-specific prompt optimization guidelines. First, we use an iterative, test-driven approach to automatically refine code generation prompts, and we analyze the outcome of this process to identify prompt improvement items that lead to test passes. We use such elements to elicit 10 guidelines for prompt improvement, related to better specifying I/O, pre-post conditions, providing examples, various types of details, or clarifying ambiguities. We conduct an assessment with 50 practitioners, who report their usage of the elicited prompt improvement patterns, as well as their perceived usefulness, which does not always correspond to the actual usage before knowing our guidelines. Our results lead to implications not only for practitioners and educators, but also for those aimed at creating better LLM-aided software development tools.
Abstract（参考訳）: 大規模言語モデル(LLM)は、今日では様々な種類のソフトウェアエンジニアリングタスク、主にコード生成に広く使われている。これまでの研究は、開発者がコード生成のプロンプトを改善するのに、いかに適切なプロンプトエンジニアリングが役立つかを示してきた。しかし、今のところ、開発者がコード生成に適したプロンプトを書くための具体的なガイドラインは存在しない。本研究では,開発固有のプロンプト最適化ガイドラインを導出し,評価する。まず、コード生成プロンプトを自動的に洗練するために反復的かつテスト駆動のアプローチを使用し、このプロセスの結果を分析し、テストパスにつながる即時改善項目を特定します。このような要素を用いて、I/Oのより良い指定、事前条件、サンプルの提供、様々な種類の詳細、曖昧さの明確化など、迅速な改善のための10のガイドラインを導き出します。実践者50名を対象に評価を行い,本ガイドラインの発見前には必ずしも実際の使用と一致しない,先進的な改善パターンの使用状況と認識された有用性について報告する。我々の成果は、実践者や教育者だけでなく、より良いLCM支援ソフトウェア開発ツールの開発にも影響します。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Prompting LLMs for Code Editing: Struggles and Remedies [39.02507244469977]
大規模言語モデル(LLM)は、コーディングアシスタントをIDEに組み込むことで、ソフトウェアエンジニアリングを急速に変化させています。本稿では,LLMを利用したコード編集および変換機能であるTransform Codeと,Googleで広く使用されているIDEの開発者インタラクションに関するマルチフェーズ調査を通じて,このギャップの一部に対処する。機能使用状況のテレメトリログを分析し、頻繁な再プロンプトがTransform Codeを使用する開発者の苦労の指標であることを明らかにする。我々は、周囲のコードコンテキストから欠落した情報を推測してプロンプトを自動改善するツールAutoPrompterを提案し、評価し、27%の改善を実現した。
論文参考訳（メタデータ） (2025-04-28T18:59:28Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。 CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
Pragmatic Reasoning improves LLM Code Generation [34.01862911727194]
大規模言語モデル(LLM)は、自然言語(NL)命令をプログラムコードに変換する上で、驚くべき可能性を示している。この課題に対処するため、研究者はプログラムコードの複数の候補を生成し、それらを再帰して最良の解を識別するアプローチを提案している。我々は,Rational Speech Act (RSA) フレームワーク上に構築された新しいコード候補付け機構であるCodeRSAを提案する。
論文参考訳（メタデータ） (2025-02-20T12:44:26Z)
Language Models for Code Optimization: Survey, Challenges and Future Directions [7.928856221466083]
ディープニューラルネットワーク(DNN)上に構築された言語モデル(LM)は、先日、ソフトウェアエンジニアリングタスクにおいて、画期的な効果を実証した。本研究は、この急速に発展する分野において、研究者と実践者の両方に実行可能な洞察と参照を提供することを目的としている。
論文参考訳（メタデータ） (2025-01-02T14:20:36Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (2024-08-29T12:56:06Z)
Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文参考訳（メタデータ） (2023-07-10T11:29:41Z)
Recommendation as Instruction Following: A Large Language Model Empowered Recommendation Approach [83.62750225073341]
我々は、大規模言語モデル(LLM)による指示としてレコメンデーションを考える。まず、ユーザの好み、意図、タスクフォーム、コンテキストを自然言語で記述するための一般的な命令形式を設計する。そして、39の命令テンプレートを手動で設計し、大量のユーザ個人化された命令データを自動的に生成する。
論文参考訳（メタデータ） (2023-05-11T17:39:07Z)
TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文参考訳（メタデータ） (2022-11-21T22:38:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。