論文の概要: PERC: Plan-As-Query Example Retrieval for Underrepresented Code Generation
- arxiv url: http://arxiv.org/abs/2412.12447v2
- Date: Fri, 20 Dec 2024 03:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 13:01:48.957118
- Title: PERC: Plan-As-Query Example Retrieval for Underrepresented Code Generation
- Title(参考訳): PERC:未表現コード生成のためのPlan-As-Query例検索
- Authors: Jaeseok Yoo, Hojae Han, Youngwon Lee, Jaejin Kim, Seung-won Hwang,
- Abstract要約: コード生成(PERC)における数ショットプロンプトのためのPlan-as-query例検索
PERCはコード生成における最先端のRAGメソッドよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 20.105490443135672
- License:
- Abstract: Code generation with large language models has shown significant promise, especially when employing retrieval-augmented generation (RAG) with few-shot examples. However, selecting effective examples that enhance generation quality remains a challenging task, particularly when the target programming language (PL) is underrepresented. In this study, we present two key findings: (1) retrieving examples whose presented algorithmic plans can be referenced for generating the desired behavior significantly improves generation accuracy, and (2) converting code into pseudocode effectively captures such algorithmic plans, enhancing retrieval quality even when the source and the target PLs are different. Based on these findings, we propose Plan-as-query Example Retrieval for few-shot prompting in Code generation (PERC), a novel framework that utilizes algorithmic plans to identify and retrieve effective examples. We validate the effectiveness of PERC through extensive experiments on the CodeContests, HumanEval and MultiPL-E benchmarks: PERC consistently outperforms the state-of-the-art RAG methods in code generation, both when the source and target programming languages match or differ, highlighting its adaptability and robustness in diverse coding environments.
- Abstract(参考訳): 大規模な言語モデルを用いたコード生成は,特にRAG(Research-augmented Generation)を少数の例で用いた場合,大きな可能性を秘めている。
しかし、特にターゲットプログラミング言語(PL)が不足している場合、生成品質を向上させる効果的な例を選択することは難しい課題である。
本研究では,(1)提案したアルゴリズム計画を参照して所望の動作を生成できる事例の検索が生成精度を著しく向上させるとともに,(2)ソースコードを擬似コードに変換することで,ソースと対象PLが異なっても検索品質が向上する,という2つの重要な知見を提示する。
提案手法は,提案手法を用いて,実例の同定と検索を行う新しいフレームワークであるCode Generation (PERC) において,数発のプロンプトを行うためのPlan-as-query Example Retrievalを提案する。
CodeContests、HumanEval、MultiPL-Eベンチマークの広範な実験を通じて、PERCの有効性を検証する。PERCは、ソースコードとターゲットプログラミング言語が一致するか異なるかの場合に、コード生成における最先端のRAGメソッドを一貫して上回り、多様なコーディング環境における適応性と堅牢性を強調します。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - The First Prompt Counts the Most! An Evaluation of Large Language Models on Iterative Example-based Code Generation [33.77058239791512]
本稿では,Large Language Models (LLMs) を用いたサンプルベースコード生成の総合的研究について述べる。
I/O例の不完全性に起因する誤りに対処するために,反復的評価フレームワークを採用する。
我々は168の多様な目標関数のベンチマークを用いて6つの最先端LCMを評価した。
論文 参考訳(メタデータ) (2024-11-11T08:05:37Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。
複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。
この問題は、長文生成のための言語モデリングにも見られる。
本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文 参考訳(メタデータ) (2023-04-14T00:01:05Z) - Planning with Large Language Models for Code Generation [100.07232672883897]
Planning-Guided Transformer Decoding (PG-TD) は、計画アルゴリズムを用いてルックアヘッド検索を行い、トランスフォーマーを誘導してより良いプログラムを生成する。
我々は、公開コーディングチャレンジベンチマークのバックボーンとして、いくつかの大きな言語モデルを用いて、我々のフレームワークを実証的に評価する。
論文 参考訳(メタデータ) (2023-03-09T18:59:47Z) - Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。
PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。
PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文 参考訳(メタデータ) (2023-01-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。