論文の概要: DOCE: Finding the Sweet Spot for Execution-Based Code Generation
- arxiv url: http://arxiv.org/abs/2408.13745v4
- Date: Wed, 16 Oct 2024 15:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 05:15:13.536480
- Title: DOCE: Finding the Sweet Spot for Execution-Based Code Generation
- Title(参考訳): DOCE:実行ベースのコード生成のためのスイートスポットを見つける
- Authors: Haau-Sing Li, Patrick Fernandes, Iryna Gurevych, André F. T. Martins,
- Abstract要約: 本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
- 参考スコア(独自算出の注目度): 69.5305729627198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a diverse set of decoding and reranking procedures have been shown effective for LLM-based code generation. However, a comprehensive framework that links and experimentally compares these methods is missing. We address this by proposing Decoding Objectives for Code Execution, a comprehensive framework that includes candidate generation, $n$-best reranking, minimum Bayes risk (MBR) decoding, and self-debugging as the core components. We then study the contributions of these components through execution-based evaluation metrics. Our findings highlight the importance of execution-based methods and the difference gap between execution-based and execution-free methods. Furthermore, we assess the impact of filtering based on trial unit tests, a simple and effective strategy that has been often overlooked in prior works. We also propose self-debugging on multiple candidates, obtaining state-of-the-art performance on reranking for code generation. We expect our framework to provide a solid guideline for future research on code generation.
- Abstract(参考訳): 近年,LLMベースのコード生成において,多種多様な復号化処理と復号化処理が有効であることが示されている。
しかし、これらの手法をリンクし、実験的に比較する包括的なフレームワークは欠落している。
私たちは、Decoding Objectives for Code Executionを提案しています。これは、候補生成、$n$-bestリグレード、最小ベイズリスク(MBR)デコーディング、コアコンポーネントとしての自己デバッグを含む包括的なフレームワークです。
次に、これらのコンポーネントのコントリビューションを、実行ベースの評価指標を通して調査する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
さらに,従来の研究では見過ごされがちな,シンプルかつ効果的な手法である試行単体テストに基づくフィルタリングの効果を評価する。
また,複数候補に対する自己デバッグを提案する。
私たちのフレームワークは、コード生成に関する将来の研究のための確かなガイドラインを提供することを期待しています。
関連論文リスト
- AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - FasterPy: An LLM-based Code Execution Efficiency Optimization Framework [11.766544835516974]
コードはしばしばパフォーマンスのバグに悩まされる。
従来のルールベースのメソッドは、特定のパフォーマンスバグに対するルールを手動で設計し、保守することに依存しています。
我々は,Pythonコードの実行効率を最適化するために,大規模言語モデルを適用するフレームワークであるFasterPyを提案する。
論文 参考訳(メタデータ) (2025-12-28T07:43:08Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - Let's Revise Step-by-Step: A Unified Local Search Framework for Code Generation with LLMs [16.818072348542923]
本稿では,ステップバイステップのコード修正を効果的に行う統一的なローカル検索フレームワークを提案する。
具体的には、ReLocは4つの主要なアルゴリズムコンポーネントを通して、一連のローカルリビジョンを探索する。
そこで我々は,修正距離に基づいてコード品質を評価できる特化リビジョン報酬モデルを構築し,微粒な選好を生成する。
論文 参考訳(メタデータ) (2025-08-10T17:11:56Z) - What to Retrieve for Effective Retrieval-Augmented Code Generation? An Empirical Study and Beyond [32.467437657603604]
リポジトリレベルのコード生成は、複雑なコード依存と長いコンテキストの処理における大きな言語モデル(LLM)の制限のため、依然として困難である。
ユーザクエリを実装ステップに分解し,セマンティックな記述マッチングを通じてAPIを検索する,チェーン・オブ・シントを利用した新しいコンテキスト統合手法であるAllianceCoderを提案する。
CoderEvalとRepoExecに関する広範な実験を通じて、AllianceCoderは最先端のパフォーマンスを実現し、Pass@1を既存のアプローチよりも最大20%改善した。
論文 参考訳(メタデータ) (2025-03-26T14:41:38Z) - An Empirical Study of Retrieval-Augmented Code Generation: Challenges and Opportunities [19.455889970335967]
コード生成は、自然言語の記述に従って、特定のプログラミング言語のコードスニペットを自動的に生成することを目的としている。
コード生成のための事前訓練されたモデルの1つの大きな課題は、自然言語要求とソースコードのセマンティックギャップである。
Retrieval-augmented frameworkは、要求を理解し、生成プロセスのガイダンスを提供するために利用することができる。
論文 参考訳(メタデータ) (2025-01-23T15:17:51Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates [46.74037090843497]
大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。
本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-26T01:48:57Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。
GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。
本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文 参考訳(メタデータ) (2023-12-15T00:34:52Z) - RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文 参考訳(メタデータ) (2023-07-10T05:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。