論文の概要: Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates
- arxiv url: http://arxiv.org/abs/2408.13976v2
- Date: Tue, 27 Aug 2024 06:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 12:32:33.056749
- Title: Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates
- Title(参考訳): チャフを通り抜ける:生成したコード候補のランク付けのための実行フィードバックの利用について
- Authors: Zhihong Sun, Yao Wan, Jia Li, Hongyu Zhang, Zhi Jin, Ge Li, Chen Lyu,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。
本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
- 参考スコア(独自算出の注目度): 46.74037090843497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), such as GPT-4, StarCoder, and CodeLlama, are transforming the way developers approach programming by automatically generating code based on given natural language descriptions. Despite advancements, generating syntactically and semantically correct code remains challenging, especially for complex programming tasks. Typically, individuals generate multiple candidate solutions using LLMs to increase the likelihood of producing correct code. However, selecting the correct code from these candidates-a process known as code ranking-remains a major challenge. Current research on code ranking can be categorized into execution-based and non-execution-based methods. Execution-based methods, although effective, encounter notable limitations, such as scarcity of quality unit tests and security risks. Non-execution-based methods like CodeRanker, which rely solely on classification labels to train a code ranker, struggle to capture subtle errors and provide detailed error insights. Recognizing the strengths and limitations of both approaches, we propose a new method. The key insight of our work is that an effective code ranker is expected to genuinely comprehend the underlying causes of erroneous code, as relying solely on classification labels is insufficient. Inspired by this, this paper puts forward RankEF, an innovative approach for code ranking that leverages execution feedback. RankEF employs multi-task learning to integrate code classification with execution feedback generation. This approach enables the model to understand the reasons behind incorrect code, distinguishing between correct and incorrect solutions without the need to execute the code during the ranking phase. Experiments on three code generation benchmarks demonstrate that RankEF significantly outperforms the state-of-the-art CodeRanker.
- Abstract(参考訳): GPT-4、StarCoder、CodeLlamaといった大規模言語モデル(LLM)は、与えられた自然言語記述に基づいて自動的にコードを生成することによって、開発者がプログラミングにアプローチする方法を変えつつある。
進歩にもかかわらず、特に複雑なプログラミングタスクにおいて、構文的および意味論的に正しいコードを生成することは難しい。
通常、個人はLSMを使って複数の候補解を生成し、正しいコードを生成する可能性を高める。
しかし、これらの候補から正しいコードを選択することは、コードランキングとして知られるプロセスが大きな課題である。
コードランキングに関する現在の研究は、実行ベースおよび実行ベースでない方法に分類することができる。
実行ベースの手法は有効ではあるが、品質ユニットテストの欠如やセキュリティリスクなど、注目すべき制限に直面している。
CodeRankerのような非実行ベースのメソッドは、コードローダをトレーニングするための分類ラベルのみに依存するが、微妙なエラーをキャプチャし、詳細なエラー洞察を提供するのに苦労している。
両アプローチの長所と短所を認識し,新しい手法を提案する。
私たちの研究における重要な洞察は、効果的なコードランキングラが、分類ラベルのみに依存しているため、誤ったコードの根本原因を真に理解することが期待されていることです。
この問題に触発された本論文では,実行フィードバックを活用したコードランキングの革新的なアプローチである RankEF について述べる。
RankEFは、コード分類と実行フィードバック生成を統合するためにマルチタスク学習を採用している。
このアプローチにより、モデルが不正コードの背後にある理由を理解し、ランキングフェーズ中にコードを実行することなく、正しいソリューションと間違ったソリューションを区別することが可能になる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
関連論文リスト
- CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - CodeSift: An LLM-Based Reference-Less Framework for Automatic Code Validation [3.22798929957223]
大規模言語モデル(LLM)はコード生成を大いに促進してきたが、生成されたコードの機能的正確性を保証することは依然として課題である。
従来のバリデーション手法は、多くの場合、大量のコードに対して時間がかかり、エラーが発生し、実用的ではない。
コード検証のファーストラインフィルタとしてLLMを活用する新しいフレームワークであるCodeSiftを紹介します。
論文 参考訳(メタデータ) (2024-08-28T08:32:21Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Top Pass: Improve Code Generation by Pass@k-Maximized Code Ranking [11.109866941442641]
Top Passは、多数の候補からの潜在的な正しいソリューションを特定する、コードランキングのアプローチである。
これにより、ユーザは可能な限り少ない試行で正しいソリューションを見つけることができる。
論文 参考訳(メタデータ) (2024-08-11T07:53:51Z) - Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。
当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。
本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文 参考訳(メタデータ) (2024-05-22T19:02:50Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - CodeScore: Evaluating Code Generation by Learning Code Execution [34.08307174529496]
本稿では,3つの入力フォーマット上で生成されたコードの関数的正当性を推定する大規模言語モデル(LLM)ベースのCEMであるCodeScoreを提案する。
CodeScoreは、他のCEMと比較して58.87%の相関性を向上し、最先端のパフォーマンスを達成し、3つの入力フォーマットを効果的に扱う。
論文 参考訳(メタデータ) (2023-01-22T02:59:59Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。