論文の概要: Prompting in the Wild: An Empirical Study of Prompt Evolution in Software Repositories
- arxiv url: http://arxiv.org/abs/2412.17298v1
- Date: Mon, 23 Dec 2024 05:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:26.025884
- Title: Prompting in the Wild: An Empirical Study of Prompt Evolution in Software Repositories
- Title(参考訳): 野生でのプロンプト:ソフトウェアリポジトリにおけるプロンプト進化の実証的研究
- Authors: Mahan Tafreshipour, Aaron Imani, Eric Huang, Eduardo Almeida, Thomas Zimmermann, Iftekhar Ahmed,
- Abstract要約: 本研究は,LSM統合ソフトウェア開発における迅速な進化の実証的研究である。
我々は、インシデント変更のパターンと頻度を調べるために、243のGitHubリポジトリにわたる1,262のインシデント変更を分析した。
私たちの調査によると、開発者は主に追加や修正を通じて進化し、ほとんどの変更は機能開発中に発生します。
- 参考スコア(独自算出の注目度): 11.06441376653589
- License:
- Abstract: The adoption of Large Language Models (LLMs) is reshaping software development as developers integrate these LLMs into their applications. In such applications, prompts serve as the primary means of interacting with LLMs. Despite the widespread use of LLM-integrated applications, there is limited understanding of how developers manage and evolve prompts. This study presents the first empirical analysis of prompt evolution in LLM-integrated software development. We analyzed 1,262 prompt changes across 243 GitHub repositories to investigate the patterns and frequencies of prompt changes, their relationship with code changes, documentation practices, and their impact on system behavior. Our findings show that developers primarily evolve prompts through additions and modifications, with most changes occurring during feature development. We identified key challenges in prompt engineering: only 21.9\% of prompt changes are documented in commit messages, changes can introduce logical inconsistencies, and misalignment often occurs between prompt changes and LLM responses. These insights emphasize the need for specialized testing frameworks, automated validation tools, and improved documentation practices to enhance the reliability of LLM-integrated applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の採用は、開発者がこれらのLCMをアプリケーションに統合するときにソフトウェア開発を変革している。
このような応用において、プロンプトはLLMと相互作用する主要な手段となる。
LLM統合アプリケーションの普及にもかかわらず、開発者がプロンプトを管理し、進化させる方法については、限定的な理解がされている。
本研究は,LSM統合ソフトウェア開発における迅速な進化の実証的研究である。
私たちは、243のGitHubリポジトリにわたる1,262のプロンプト変更を分析して、プロンプト変更のパターンと頻度、コード変更との関係、ドキュメントプラクティス、システムの振る舞いへの影響を調査しました。
私たちの調査によると、開発者は主に追加や修正を通じて進化し、ほとんどの変更は機能開発中に発生します。
我々は、プロンプトエンジニアリングにおける重要な課題を特定した: コミットメッセージにプロンプト変更の21.9\%しか文書化されておらず、変更は論理的不整合を導入でき、しばしばプロンプト変更とLLM応答の間にミスアライメントが発生する。
これらの洞察は、LLM統合アプリケーションの信頼性を高めるために、特殊なテストフレームワーク、自動検証ツール、ドキュメントプラクティスの改善の必要性を強調している。
関連論文リスト
- LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。
その結果,既存のSOTA法よりも20%改善した。
論文 参考訳(メタデータ) (2024-11-21T08:49:23Z) - RETAIN: Interactive Tool for Regression Testing Guided LLM Migration [8.378294455013284]
RETAIN(Regression Testing Guided LLM migrAtIoN)は、LLMマイグレーションにおける回帰テスト用に明示的に設計されたツールである。
自動評価と経験的ユーザスタディにより、RETAINは手動による評価と比較して、参加者が2倍のエラーを識別し、75%以上のプロンプトで実験し、与えられた時間枠で12%高いスコアを得ることができた。
論文 参考訳(メタデータ) (2024-09-05T22:22:57Z) - An Empirical Study on Challenges for LLM Application Developers [28.69628251749012]
私たちは、人気のあるOpenAI開発者フォーラムから29,057の関連質問をクロールして分析します。
2,364の質問を手動で分析した後、LLM開発者が直面している課題の分類を構築した。
論文 参考訳(メタデータ) (2024-08-06T05:46:28Z) - What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。
感度はプロンプトの 言い換えによる予測の変化を測る
その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2024-06-18T06:59:24Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。