論文の概要: Neural Rankers for Code Generation via Inter-Cluster Modeling
- arxiv url: http://arxiv.org/abs/2311.03366v1
- Date: Mon, 16 Oct 2023 22:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:47:32.055496
- Title: Neural Rankers for Code Generation via Inter-Cluster Modeling
- Title(参考訳): クラスタ間モデリングによるコード生成のためのニューラルランカ
- Authors: Hung Quoc To, Minh Huynh Nguyen, Nghi D. Q. Bui
- Abstract要約: textitSRankは、コード生成から最良のソリューションを選択するための、新しい優先順位付け戦略である。
クラスタ間の機能の重複を定量化することで、我々のアプローチはより良いランキング戦略を提供する。
実験結果から,pass@1のスコアで顕著な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 7.491371671334251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code Large Language Models (CodeLLMs) have ushered in a new era of code
generation advancements. However, selecting the best solutions from among all
possible CodeLLM solutions remains a challenge. Previous methods frequently
overlooked the intricate functional similarities and interactions between
clusters, resulting in suboptimal results. In this work, we introduce
\textit{SRank}, a novel reranking strategy for selecting the best solution from
code generation that focuses on modeling inter-cluster relationship. By
quantifying the functional overlap between clusters, our approach provides a
better ranking strategy of code solutions. Empirical results show that our
method achieves a remarkable results on pass@1 score. For instance, on the
Human-Eval benchmark, we achieve 69.66\% in pass@1 with Codex002, 75.31\% for
WizardCoder, 53.99\% for StarCoder and 60.55\% for CodeGen, which surpass the
state-of-the-arts solution ranking methods, such as CodeT and Coder-Reviewer on
the same CodeLLM with significant margin ($\approx 6.1\%$ improvement on
average). Comparing to the random sampling method, we can achieve an average
improvement of $\approx 23.07\%$ on Human-Eval and 17.64\% on MBPP. Even in
scenarios with limited test inputs, our approach demonstrates robustness and
superiority, marking a new state-of-the-arts in code generation reranking.
- Abstract(参考訳): Code Large Language Models (CodeLLMs)は、コード生成の新たな時代を支えている。
しかし、可能なすべてのcodellmソリューションの中から最良のソリューションを選択することは依然として課題である。
それまでの手法では、複雑な機能的類似性やクラスタ間の相互作用がしばしば見過ごされ、結果として準最適結果が得られた。
本稿では,クラスタ間関係のモデリングに焦点をあてたコード生成から,最適なソリューションを選択するための新たな戦略である‘textit{SRank} を紹介する。
クラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。
実験結果から,pass@1 スコアにおいて顕著な結果が得られた。
例えば、human-evalベンチマークでは、pass@1において、codex002で69.66\%、wizardcoderで75.31\%、starcoderで53.99\%、codegenで60.55\%を達成する。
ランダムサンプリング法と比較して,Human-Evalでは$\approx 23.07\%,MBPPでは17.64\%の平均的な改善が得られる。
テスト入力が限られているシナリオであっても、私たちのアプローチは堅牢性と優位性を示し、コード生成の新たな最先端をマークしています。
関連論文リスト
- Optimizing NOTEARS Objectives via Topological Swaps [41.18829644248979]
本稿では,候補アルゴリズムの集合に有効な手法を提案する。
内部レベルでは、対象が与えられた場合、オフ・ザ・アート制約を利用する。
提案手法は,他のアルゴリズムのスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-05-26T21:49:37Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Clustering with Penalty for Joint Occurrence of Objects: Computational
Aspects [0.0]
Hol'y, Sokol および vCern'y クラスタ・オブジェクトのメソッドは、与えられた多くの集合におけるそれらの出現率に基づいている。
この考え方は、同じクラスタ内の同じクラスタから複数のオブジェクトが発生することを最小限にすることを目的としている。
本稿では,本手法の計算的側面について考察する。
論文 参考訳(メタデータ) (2021-02-02T10:39:27Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。