論文の概要: Prompt Alchemy: Automatic Prompt Refinement for Enhancing Code Generation
- arxiv url: http://arxiv.org/abs/2503.11085v1
- Date: Fri, 14 Mar 2025 04:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:40.719838
- Title: Prompt Alchemy: Automatic Prompt Refinement for Enhancing Code Generation
- Title(参考訳): Prompt Alchemy: コード生成を向上するための自動プロンプトリファインメント
- Authors: Sixiang Ye, Zeyu Sun, Guoqing Wang, Liwei Guo, Qingyuan Liang, Zheng Li, Yong Liu,
- Abstract要約: Prochemyは、コード生成を促進するプロンプトを自動的に精錬する革新的な方法である。
モデルパフォーマンスに基づいたプロンプトを反復的に洗練し、最適化された最終プロンプトを使用してタスク間の一貫性を改善します。
Prochemy は GPT-4o の Java-to-Python (AVATAR) のパフォーマンスを 74.5 から 84.1 (+12.9%) に、Python-to-Java を 66.8 から 78.2 (+17.1%) に向上させた。
- 参考スコア(独自算出の注目度): 19.745848581060528
- License:
- Abstract: Code generation has emerged as a key task to automate software development by converting high-level descriptions into executable code. Large language models (LLMs) excel at this but depend heavily on input prompt quality.Manual prompt engineering can be time-consuming and inconsistent, limiting LLM effectiveness. This paper introduces Prochemy, an innovative method for automatically refining prompts to boost code generation. Prochemy overcomes manual prompt limitations by automating optimization, ensuring consistency during inference, and supporting multi-agent systems.It iteratively refines prompts based on model performance, using an optimized final prompt for improved consistency across tasks. We tested Prochemy on natural language-based code generation and translation tasks using three LLM series. Results indicate Prochemy enhances existing methods, improving performance by 5.0% for GPT-3.5-Turbo and 1.9% for GPT-4o over zero-shot baselines on HumanEval. In state-of-the-art LDB, Prochemy + LDB surpasses standalone methods by 1.2-1.8%. For code translation, Prochemy boosts GPT-4o's Java-to-Python (AVATAR) performance from 74.5 to 84.1 (+12.9%) and Python-to-Java from 66.8 to 78.2 (+17.1%). Moreover, Prochemy maintains strong performance when integrated with the o1-mini model, validating its efficacy in code tasks. Designed as plug-and-play, Prochemy optimizes prompts with minimal human input, bridging the gap between simple prompts and complex frameworks.
- Abstract(参考訳): コード生成は、ハイレベルな記述を実行可能なコードに変換することによって、ソフトウェア開発を自動化する重要なタスクとして登場した。
大規模言語モデル(LLM)はこの点で優れるが、入力プロンプトの品質に大きく依存する。
本稿では、コード生成を促進するプロンプトを自動精製する革新的な方法であるProchemyを紹介する。
Prochemyは、最適化の自動化、推論中の一貫性の確保、マルチエージェントシステムのサポートによって手動のプロンプト制限を克服し、タスク間の一貫性を改善するために最適化された最終プロンプトを使用して、モデル性能に基づいたプロンプトを反復的に洗練する。
自然言語に基づくコード生成と翻訳タスクにおいて,3つのLLM系列を用いてProchemyを検証した。
その結果,Prochemyは既存の手法を改良し,GPT-3.5-Turboでは5.0%,HumanEvalでは0ショットベースラインよりもGPT-4oでは1.9%向上した。
最先端のLDBでは、Prochemy + LDBはスタンドアロンのメソッドを1.2-1.8%上回っている。
Prochemy は GPT-4o の Java-to-Python (AVATAR) のパフォーマンスを 74.5 から 84.1 (+12.9%) に、Python-to-Java を 66.8 から 78.2 (+17.1%) に向上させた。
さらにProchemyは、o1-miniモデルに統合された場合の強いパフォーマンスを維持し、コードタスクの有効性を検証する。
Prochemyはプラグアンドプレイとして設計されており、簡単なプロンプトと複雑なフレームワークのギャップを埋めて、人間の入力を最小限に抑えてプロンプトを最適化する。
関連論文リスト
- PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Supervisory Prompt Training [2.0431551512846244]
我々は,SPT(Supervisory Prompt Training)という新しいアプローチを提案する。
SPTは、LLM(Large Language Models)システムを使用して、非常に効果的なプロンプトを生成する。
本システムでは,1つのLCM,ジェネレータがタスクを実行し,もう1つのリフレクタがフィードバックを提供し,改良されたプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-26T19:08:20Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling [20.0605311279483]
マルチステップタスク(PROMST)におけるPRompt Optimizationを導入する。
人間が設計したフィードバックルールを組み込んで、改善のための直接提案を自動的に提供する。
これは、人間工学的なプロンプトと、他のいくつかのプロンプト最適化手法の両方において、11の代表的なマルチステップタスクよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-02-13T16:38:01Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。