論文の概要: Which Prompting Technique Should I Use? An Empirical Investigation of Prompting Techniques for Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2506.05614v1
- Date: Thu, 05 Jun 2025 21:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.250048
- Title: Which Prompting Technique Should I Use? An Empirical Investigation of Prompting Techniques for Software Engineering Tasks
- Title(参考訳): どのプロンプトテクニックを使うべきか? ソフトウェア工学におけるプロンプトテクニックの実証的研究
- Authors: E. G. Santana Jr, Gabriel Benjamin, Melissa Araujo, Harrison Santos, David Freitas, Eduardo Almeida, Paulo Anselmo da M. S. Neto, Jiawei Li, Jina Chun, Iftekhar Ahmed,
- Abstract要約: 4つのLarge Language Model(LLM)を用いて,ソフトウェア工学(SE)タスクにまたがる14の確立されたプロンプト手法の体系的評価を行う。
先述の文献で確認されているように、選択されたプロンプト技術は6つの中核次元(ゼロショット、フーショット、思考生成、組み立て、自己批判、分解)にまたがる。
提案手法は, 文脈理解や実例駆動のシナリオに依存するタスクよりも, 複雑な論理と集中的推論を必要とするSEタスクに最も効果的であることを示す。
- 参考スコア(独自算出の注目度): 6.508214641182163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing variety of prompt engineering techniques has been proposed for Large Language Models (LLMs), yet systematic evaluation of each technique on individual software engineering (SE) tasks remains underexplored. In this study, we present a systematic evaluation of 14 established prompt techniques across 10 SE tasks using four LLM models. As identified in the prior literature, the selected prompting techniques span six core dimensions (Zero-Shot, Few-Shot, Thought Generation, Ensembling, Self-Criticism, and Decomposition). They are evaluated on tasks such as code generation, bug fixing, and code-oriented question answering, to name a few. Our results show which prompting techniques are most effective for SE tasks requiring complex logic and intensive reasoning versus those that rely more on contextual understanding and example-driven scenarios. We also analyze correlations between the linguistic characteristics of prompts and the factors that contribute to the effectiveness of prompting techniques in enhancing performance on SE tasks. Additionally, we report the time and token consumption for each prompting technique when applied to a specific task and model, offering guidance for practitioners in selecting the optimal prompting technique for their use cases.
- Abstract(参考訳): LLM(Large Language Models)には様々なプロンプトエンジニアリング技術が提案されているが、個々のソフトウェアエンジニアリング(SE)タスクにおける各手法の体系的評価は未定である。
本研究では,4つのLLMモデルを用いて,10のSEタスクにまたがる14の確立されたプロンプト手法を体系的に評価する。
前述したように、選択されたプロンプト技術は6つの中核次元(ゼロショット、フーショット、思考生成、組み立て、自己批判、分解)にまたがる。
コード生成、バグ修正、コード指向の質問応答などのタスクで評価され、いくつか例を挙げる。
提案手法は, 文脈理解や実例駆動のシナリオに依存しているタスクに対して, 複雑な論理と集中的推論を必要とするタスクに対して最も効果的であることを示す。
また,プロンプトの言語的特徴と,SEタスクの性能向上におけるプロンプト技術の有効性に寄与する要因の相関分析を行った。
さらに,特定のタスクやモデルに適用した場合の各プロンプトテクニックの時間とトークン消費量を報告する。
関連論文リスト
- The Future of MLLM Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods for Robust Multimodal Performance [0.393259574660092]
MLLM(Multimodal Large Language Models)は、機械がどのように処理し、人間のような応答を生成するかを変換するために設定される。
本研究は,オープンソースMLLM13に対して,24タスクで適用した7つのプロンプトエンジニアリング手法の総合的実験評価である。
論文 参考訳(メタデータ) (2025-04-14T12:31:39Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - The Prompt Report: A Systematic Survey of Prompt Engineering Techniques [42.618971816813385]
生成的人工知能システムは、様々な産業や研究領域に展開されつつある。
工学は矛盾する用語と 存在論的理解に苦しむ
本研究は,プロンプト技術と応用分析の分類を組み込むことにより,プロンプトエンジニアリングの構造化された理解を確立する。
論文 参考訳(メタデータ) (2024-06-06T18:10:11Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.82812214830023]
効率的なプロンプティング手法は幅広い注目を集めている。
本稿では,異なるプロンプト成分に対する自動プロンプトエンジニアリングと連続空間および離散空間におけるプロンプト圧縮について論じる。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Towards Generalist Prompting for Large Language Models by Mental Models [105.03747314550591]
大規模言語モデル(LLM)は多くのタスクにおいて素晴らしいパフォーマンスを示している。
最適な性能を達成するには、特別に設計されたプロンプト法が必要である。
本稿では,最適あるいは準最適性能を実現する設計原理に基づくジェネラリストプロンプトの概念を紹介する。
論文 参考訳(メタデータ) (2024-02-28T11:29:09Z) - An Empirical Categorization of Prompting Techniques for Large Language
Models: A Practitioner's Guide [0.34530027457862006]
本研究では,学術的,実践的両面から最もよく知られたプロンプト技術について検討する。
本稿では,それぞれのカテゴリについて概説し,その独特な貢献を明確化し,実践的応用について紹介する。
論文 参考訳(メタデータ) (2024-02-18T23:03:56Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - A Review of Uncertainty Quantification in Deep Learning: Techniques,
Applications and Challenges [76.20963684020145]
不確実性定量化(UQ)は、最適化と意思決定プロセスの両方において不確実性の低減に重要な役割を果たしている。
ビザレ近似とアンサンブル学習技術は、文学において最も広く使われている2つのUQ手法である。
本研究は, 深層学習におけるUQ手法の最近の進歩を概観し, 強化学習におけるこれらの手法の適用について検討する。
論文 参考訳(メタデータ) (2020-11-12T06:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。