論文の概要: Automated Prompt Generation for Code Intelligence: An Empirical study and Experience in WeChat
- arxiv url: http://arxiv.org/abs/2511.03136v1
- Date: Wed, 05 Nov 2025 02:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.304274
- Title: Automated Prompt Generation for Code Intelligence: An Empirical study and Experience in WeChat
- Title(参考訳): コードインテリジェンスのための自動プロンプト生成:WeChatにおける実証研究と経験
- Authors: Kexing Ji, Shiyun Fu, Cuiyun Gao, Yujia Chen, Zezhou Yang, Chaozheng Wang, Yuetang Deng,
- Abstract要約: 大規模コードモデル(LCM)は、コードインテリジェンスに潜在的な可能性を示すが、その効果は、迅速な品質の影響を大きく受けている。
自動プロンプト生成(APG)はNLPに存在するが、コードインテリジェンスには未熟である。
本稿では,2つの部分の最良の手法を組み合わせた新しいAPG手法を提案する。
- 参考スコア(独自算出の注目度): 10.396978864444868
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Code Models (LCMs) show potential in code intelligence, but their effectiveness is greatly influenced by prompt quality. Current prompt design is mostly manual, which is time-consuming and highly dependent on specific LCMs and tasks. While automated prompt generation (APG) exists in NLP, it is underexplored for code intelligence. This creates a gap, as automating the prompt process is essential for developers facing diverse tasks and black-box LCMs. To mitigate this, we empirically investigate two important parts of APG: Instruction Generation (IG) and Multi-Step Reasoning (MSR). IG provides a task-related description to instruct LCMs, while MSR guides them to produce logical steps before the final answer. We evaluate widely-used APG methods for each part on four open-source LCMs and three code intelligence tasks: code translation (PL-PL), code summarization (PL-NL), and API recommendation (NL-PL).Experimental results indicate that both IG and MSR dramatically enhance performance compared to basic prompts. Based on these results, we propose a novel APG approach combining the best methods of the two parts. Experiments show our approach achieves average improvements of 28.38% in CodeBLEU (code translation), 58.11% in ROUGE-L (code summarization), and 84.53% in SuccessRate@1 (API recommendation) over basic prompts. To validate its effectiveness in an industrial scenario, we evaluate our approach on WeChat-Bench, a proprietary dataset, achieving an average MRR improvement of 148.89% for API recommendation.
- Abstract(参考訳): 大規模コードモデル(LCM)は、コードインテリジェンスに潜在的な可能性を示すが、その効果は、迅速な品質の影響を大きく受けている。
現在のプロンプト設計は主にマニュアルで、時間を要するため、特定のLCMやタスクに非常に依存している。
自動プロンプト生成(APG)はNLPに存在するが、コードインテリジェンスには未熟である。
多様なタスクやブラックボックスのLCMに直面している開発者にとっては、プロンプトプロセスの自動化が不可欠であるからである。
そこで我々は,APGの2つの重要な部分であるインストラクション生成(IG)とマルチステップ推論(MSR)を実証的に検討した。
IGはLCMを指示するためにタスク関連の記述を提供し、MSRは最終回答の前に論理的なステップを生成するように誘導する。
4つのオープンソースLCMと3つのコードインテリジェンスタスク、すなわちコード翻訳(PL-PL)、コード要約(PL-NL)、APIレコメンデーション(NL-PL)について、広く使われているAPG手法を評価した。
実験の結果,IGとMSRは基本的プロンプトに比べて劇的に性能が向上した。
これらの結果に基づいて,両部を最適に組み合わせた新しいAPG手法を提案する。
実験の結果,CodeBLEUでは28.38%,ROUGE-Lでは58.11%,SuccessRate@1(APIレコメンデーション)では84.53%の改善が得られた。
産業シナリオにおける有効性を検証するため,プロプライエタリなデータセットであるWeChat-Benchのアプローチを評価し,APIレコメンデーションに対して平均148.89%の改善を実現した。
関連論文リスト
- GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [106.98018881499362]
GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。
GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。
ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
論文 参考訳(メタデータ) (2025-07-25T17:42:32Z) - Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - LLM Agents Improve Semantic Code Search [6.047454623201181]
本稿では、ユーザプロンプトに情報を注入する検索拡張型エージェントのアプローチを提案する。
RAGを利用することで、エージェントはGitHubリポジトリから関連する詳細でユーザクエリを強化し、より情報的でコンテキスト整合性を高めます。
CodeSearchNetデータセットの実験結果は、RepoRiftが既存のメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-05T00:43:56Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。