論文の概要: Neural Rankers for Code Generation via Inter-Cluster Modeling
- arxiv url: http://arxiv.org/abs/2311.03366v1
- Date: Mon, 16 Oct 2023 22:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:47:32.055496
- Title: Neural Rankers for Code Generation via Inter-Cluster Modeling
- Title(参考訳): クラスタ間モデリングによるコード生成のためのニューラルランカ
- Authors: Hung Quoc To, Minh Huynh Nguyen, Nghi D. Q. Bui
- Abstract要約: textitSRankは、コード生成から最良のソリューションを選択するための、新しい優先順位付け戦略である。
クラスタ間の機能の重複を定量化することで、我々のアプローチはより良いランキング戦略を提供する。
実験結果から,pass@1のスコアで顕著な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 7.491371671334251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code Large Language Models (CodeLLMs) have ushered in a new era of code
generation advancements. However, selecting the best solutions from among all
possible CodeLLM solutions remains a challenge. Previous methods frequently
overlooked the intricate functional similarities and interactions between
clusters, resulting in suboptimal results. In this work, we introduce
\textit{SRank}, a novel reranking strategy for selecting the best solution from
code generation that focuses on modeling inter-cluster relationship. By
quantifying the functional overlap between clusters, our approach provides a
better ranking strategy of code solutions. Empirical results show that our
method achieves a remarkable results on pass@1 score. For instance, on the
Human-Eval benchmark, we achieve 69.66\% in pass@1 with Codex002, 75.31\% for
WizardCoder, 53.99\% for StarCoder and 60.55\% for CodeGen, which surpass the
state-of-the-arts solution ranking methods, such as CodeT and Coder-Reviewer on
the same CodeLLM with significant margin ($\approx 6.1\%$ improvement on
average). Comparing to the random sampling method, we can achieve an average
improvement of $\approx 23.07\%$ on Human-Eval and 17.64\% on MBPP. Even in
scenarios with limited test inputs, our approach demonstrates robustness and
superiority, marking a new state-of-the-arts in code generation reranking.
- Abstract(参考訳): Code Large Language Models (CodeLLMs)は、コード生成の新たな時代を支えている。
しかし、可能なすべてのcodellmソリューションの中から最良のソリューションを選択することは依然として課題である。
それまでの手法では、複雑な機能的類似性やクラスタ間の相互作用がしばしば見過ごされ、結果として準最適結果が得られた。
本稿では,クラスタ間関係のモデリングに焦点をあてたコード生成から,最適なソリューションを選択するための新たな戦略である‘textit{SRank} を紹介する。
クラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。
実験結果から,pass@1 スコアにおいて顕著な結果が得られた。
例えば、human-evalベンチマークでは、pass@1において、codex002で69.66\%、wizardcoderで75.31\%、starcoderで53.99\%、codegenで60.55\%を達成する。
ランダムサンプリング法と比較して,Human-Evalでは$\approx 23.07\%,MBPPでは17.64\%の平均的な改善が得られる。
テスト入力が限られているシナリオであっても、私たちのアプローチは堅牢性と優位性を示し、コード生成の新たな最先端をマークしています。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests [16.19318541132026]
ベイズフレームワーク内では、解と試験の間の観測された通過状態の後続確率に基づいて最適な選択戦略が定義されることを示す。
本稿では,この最適(計算不可能な)戦略を近似するための効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T10:22:08Z) - Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates [46.74037090843497]
大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。
本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-26T01:48:57Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Top Pass: Improve Code Generation by Pass@k-Maximized Code Ranking [11.109866941442641]
Top Passは、多数の候補からの潜在的な正しいソリューションを特定する、コードランキングのアプローチである。
これにより、ユーザは可能な限り少ない試行で正しいソリューションを見つけることができる。
論文 参考訳(メタデータ) (2024-08-11T07:53:51Z) - Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。
ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。
ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文 参考訳(メタデータ) (2024-05-13T07:56:15Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。