論文の概要: Functional Overlap Reranking for Neural Code Generation
- arxiv url: http://arxiv.org/abs/2311.03366v4
- Date: Wed, 7 Aug 2024 22:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:59:13.795319
- Title: Functional Overlap Reranking for Neural Code Generation
- Title(参考訳): ニューラルコード生成のための関数オーバーラップリグレード
- Authors: Hung Quoc To, Minh Huynh Nguyen, Nghi D. Q. Bui,
- Abstract要約: SRankは、コード生成から最良のソリューションを選択するための、新しいランク付け戦略である。
ソリューションクラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。
実験結果から,pass@1のスコアで顕著な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 6.665515707408405
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Code Large Language Models (CodeLLMs) have ushered in a new era in code generation advancements. However, selecting the best code solutions from all possible CodeLLM outputs remains a challenge. Previous methods often overlooked the intricate functional similarities and interactions between solution clusters. We introduce SRank, a novel reranking strategy for selecting the best solutions from code generation, focusing on modeling the relationships between clusters of solutions. By quantifying the functional overlap between solution clusters, our approach provides a better ranking strategy for code solutions. Empirical results show that our method achieves remarkable results on the pass@1 score. For instance, on the Human-Eval benchmark, we achieve 69.66% in pass@1 with Codex002, 75.31% with WizardCoder, 53.99% with StarCoder, and 60.55% with CodeGen, surpassing state-of-the-art code generation reranking methods such as CodeT and Coder-Reviewer on the same CodeLLM by a significant margin (approximately 6.1% improvement on average). Even in scenarios with a limited number of sampled solutions and test cases, our approach demonstrates robustness and superiority, marking a new benchmark in code generation reranking. Our implementation can be found at https://github.com/FSoft-AI4Code/SRank-CodeRanker.
- Abstract(参考訳): Code Large Language Models (CodeLLMs) は、コード生成の進歩の新たな時代を支えている。
しかし、可能なすべてのCodeLLM出力から最高のコードソリューションを選択することは、依然として困難である。
それまでの手法では、複雑な機能的類似性やソリューションクラスタ間の相互作用を見落としていた。
SRankは、ソリューションのクラスタ間の関係をモデル化することに焦点を当てた、コード生成から最良のソリューションを選択するための、新しい優先順位付け戦略である。
ソリューションクラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。
実験結果から,pass@1のスコアで顕著な結果が得られることがわかった。
例えば、Human-Evalベンチマークでは、Codex002で69.66%、WizardCoderで75.31%、StarCoderで53.99%、CodeGenで60.55%、同じCodeLLMでCodeTやCoder-Reviewerのような最先端のコード生成メソッドをかなり上回っている(平均で約6.1%改善)。
サンプル化されたソリューションやテストケースが限られているシナリオであっても、私たちのアプローチは堅牢性と優位性を示し、コード生成の新たなベンチマークを再評価します。
私たちの実装はhttps://github.com/FSoft-AI4Code/SRank-CodeRankerで確認できます。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests [16.19318541132026]
ベイズフレームワーク内では、解と試験の間の観測された通過状態の後続確率に基づいて最適な選択戦略が定義されることを示す。
本稿では,この最適(計算不可能な)戦略を近似するための効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T10:22:08Z) - Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates [46.74037090843497]
大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。
本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-26T01:48:57Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Top Pass: Improve Code Generation by Pass@k-Maximized Code Ranking [11.109866941442641]
Top Passは、多数の候補からの潜在的な正しいソリューションを特定する、コードランキングのアプローチである。
これにより、ユーザは可能な限り少ない試行で正しいソリューションを見つけることができる。
論文 参考訳(メタデータ) (2024-08-11T07:53:51Z) - Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。
ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。
ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文 参考訳(メタデータ) (2024-05-13T07:56:15Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。