Fugu-MT 論文翻訳(概要): PERC: Plan-As-Query Example Retrieval for Underrepresented Code Generation

論文の概要: PERC: Plan-As-Query Example Retrieval for Underrepresented Code Generation

arxiv url: http://arxiv.org/abs/2412.12447v2
Date: Fri, 20 Dec 2024 03:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.570692
Title: PERC: Plan-As-Query Example Retrieval for Underrepresented Code Generation
Title（参考訳）: PERC:未表現コード生成のためのPlan-As-Query例検索
Authors: Jaeseok Yoo, Hojae Han, Youngwon Lee, Jaejin Kim, Seung-won Hwang,
Abstract要約: コード生成(PERC)における数ショットプロンプトのためのPlan-as-query例検索 PERCはコード生成における最先端のRAGメソッドよりも一貫して優れている。
参考スコア（独自算出の注目度）: 20.105490443135672
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code generation with large language models has shown significant promise, especially when employing retrieval-augmented generation (RAG) with few-shot examples. However, selecting effective examples that enhance generation quality remains a challenging task, particularly when the target programming language (PL) is underrepresented. In this study, we present two key findings: (1) retrieving examples whose presented algorithmic plans can be referenced for generating the desired behavior significantly improves generation accuracy, and (2) converting code into pseudocode effectively captures such algorithmic plans, enhancing retrieval quality even when the source and the target PLs are different. Based on these findings, we propose Plan-as-query Example Retrieval for few-shot prompting in Code generation (PERC), a novel framework that utilizes algorithmic plans to identify and retrieve effective examples. We validate the effectiveness of PERC through extensive experiments on the CodeContests, HumanEval and MultiPL-E benchmarks: PERC consistently outperforms the state-of-the-art RAG methods in code generation, both when the source and target programming languages match or differ, highlighting its adaptability and robustness in diverse coding environments.
Abstract（参考訳）: 大規模な言語モデルを用いたコード生成は,特にRAG(Research-augmented Generation)を少数の例で用いた場合,大きな可能性を秘めている。しかし、特にターゲットプログラミング言語(PL)が不足している場合、生成品質を向上させる効果的な例を選択することは難しい課題である。本研究では,(1)提案したアルゴリズム計画を参照して所望の動作を生成できる事例の検索が生成精度を著しく向上させるとともに,(2)ソースコードを擬似コードに変換することで,ソースと対象PLが異なっても検索品質が向上する,という2つの重要な知見を提示する。提案手法は,提案手法を用いて,実例の同定と検索を行う新しいフレームワークであるCode Generation (PERC) において,数発のプロンプトを行うためのPlan-as-query Example Retrievalを提案する。 CodeContests、HumanEval、MultiPL-Eベンチマークの広範な実験を通じて、PERCの有効性を検証する。PERCは、ソースコードとターゲットプログラミング言語が一致するか異なるかの場合に、コード生成における最先端のRAGメソッドを一貫して上回り、多様なコーディング環境における適応性と堅牢性を強調します。

関連論文リスト

Enhancing LLM Code Generation: A Systematic Evaluation of Multi-Agent Collaboration and Runtime Debugging for Improved Accuracy, Reliability, and Latency [0.0]
プログラミング活動の異なる構成や訓練パラダイムがコード生成の効率に与える影響について検討する。私たちの発見は、堅牢なAI駆動型コーディングソリューションを求める組織に貴重な洞察を与えます。
論文参考訳（メタデータ） (2025-05-04T14:44:27Z)
Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。 GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-02T05:16:17Z)
From Token to Line: Enhancing Code Generation with a Long-Term Perspective [46.98293675904081]
大規模言語モデル(LLM)は、コード生成タスクの開発を著しく促進している。本稿では,MCTS を利用した textbfLSR-MCTS アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-10T04:03:25Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
An Empirical Study of Retrieval-Augmented Code Generation: Challenges and Opportunities [19.455889970335967]
コード生成は、自然言語の記述に従って、特定のプログラミング言語のコードスニペットを自動的に生成することを目的としている。コード生成のための事前訓練されたモデルの1つの大きな課題は、自然言語要求とソースコードのセマンティックギャップである。 Retrieval-augmented frameworkは、要求を理解し、生成プロセスのガイダンスを提供するために利用することができる。
論文参考訳（メタデータ） (2025-01-23T15:17:51Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
The First Prompt Counts the Most! An Evaluation of Large Language Models on Iterative Example-Based Code Generation [33.77058239791512]
本稿では,Large Language Models (LLMs) を用いたサンプルベースコード生成の総合的研究について述べる。我々は、反復評価フレームワークを採用し、サンプルベースのコード生成の目的を2つの連続的なサブオブジェクトとして定式化する。我々は、172の多様な目標関数のベンチマークを用いて、最先端のLLMを6つ評価した。
論文参考訳（メタデータ） (2024-11-11T08:05:37Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。この問題は、長文生成のための言語モデリングにも見られる。本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文参考訳（メタデータ） (2023-04-14T00:01:05Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。