論文の概要: Top Pass: Improve Code Generation by Pass@k-Maximized Code Ranking
- arxiv url: http://arxiv.org/abs/2408.05715v1
- Date: Sun, 11 Aug 2024 07:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:57:51.947038
- Title: Top Pass: Improve Code Generation by Pass@k-Maximized Code Ranking
- Title(参考訳): Top Pass: Pass@k-Maximized Code Rankingによるコード生成の改善
- Authors: Zhi-Cun Lyu, Xin-Ye Li, Zheng Xie, Ming Li,
- Abstract要約: Top Passは、多数の候補からの潜在的な正しいソリューションを特定する、コードランキングのアプローチである。
これにより、ユーザは可能な限り少ない試行で正しいソリューションを見つけることができる。
- 参考スコア(独自算出の注目度): 11.109866941442641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation has been greatly enhanced by the profound advancements in Large Language Models (LLMs) recently. Nevertheless, such LLM-based code generation approaches still struggle to generate error-free code in a few tries when faced with complex problems. To address this, the prevailing strategy is to sample a huge number of candidate programs, with the hope of any one in them could work. However, users of code generation systems usually expect to find a correct program by reviewing or testing only a small number of code candidates. Otherwise, the system would be unhelpful. In this paper, we propose Top Pass, a code ranking approach that identifies potential correct solutions from a large number of candidates. Top Pass directly optimizes the pass@k loss function, enhancing the quality at the top of the candidate list. This enables the user to find the correct solution within as few tries as possible. Experimental results on four benchmarks indicate that our Top Pass method enhances the usability of code generation models by producing better ranking results, particularly achieving a 32.9\% relative improvement in pass@1 on CodeContests when compared to the state-of-the-art ranking method.
- Abstract(参考訳): コード生成は、最近、LLM(Large Language Models)の大幅な進歩によって大幅に強化された。
それでも、このようなLLMベースのコード生成アプローチは、複雑な問題に直面した数回の試行において、エラーのないコードを生成するのに依然として苦労している。
この問題に対処するため、一般的な戦略は、膨大な数の候補プログラムをサンプリングすることであり、そのうちのどのプログラムも機能することを期待している。
しかし、コード生成システムのユーザは通常、少数のコード候補のみをレビューまたはテストすることで、正しいプログラムを見つけることを期待する。
そうでなければ、システムは不完全なものになるでしょう。
本稿では,多数の候補からの潜在的な正解を識別するコードランキング手法であるTop Passを提案する。
Top Passはpass@k損失関数を直接最適化し、候補リストのトップの品質を高める。
これにより、ユーザは可能な限り少ない試行で正しいソリューションを見つけることができる。
4つのベンチマークでの実験結果から,Top Pass法はより優れたランキング結果を生成することにより,コード生成モデルのユーザビリティを向上させることが示唆された。
関連論文リスト
- Code Repair with LLMs gives an Exploration-Exploitation Tradeoff [16.80314690163063]
大きな言語モデル(LLM)でソースコードを反復的に改善し、修復することは、1ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として現れている。
ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。
論文 参考訳(メタデータ) (2024-05-26T04:00:30Z) - Code Generation with AlphaCodium: From Prompt Engineering to Flow
Engineering [6.779943486567506]
テストベース,多段階,コード指向反復流LLMによるコード生成の新しい手法を提案する。
私たちは、CodeContestsと呼ばれる挑戦的なコード生成データセットでAlphaCodiumをテストしました。
例えば、GPT-4の精度(pass@5)は19%に向上し、1つの適切に設計された直接的プロンプトはAlphaCodiumフローで44%に増加した。
論文 参考訳(メタデータ) (2024-01-16T17:00:36Z) - Functional Overlap Reranking for Neural Code Generation [6.665515707408405]
SRankは、コード生成から最良のソリューションを選択するための、新しいランク付け戦略である。
ソリューションクラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。
実験結果から,pass@1のスコアで顕著な結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-16T22:20:31Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - GROOT: Corrective Reward Optimization for Generative Sequential Labeling [10.306943706927004]
テキストシーケンスの生成的リワード最適化のためのフレームワークであるGROOTを提案する。
GROOTは生成逐次ラベリングモデルをトレーニングして、デコーダ出力分布と(ブラックボックス)報酬関数の値とを一致させる。
4つの公開ベンチマークで広範な実験によって示されたように、GROOTはすべての報酬指標を大幅に改善する。
論文 参考訳(メタデータ) (2022-09-29T11:35:47Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Faster Person Re-Identification [68.22203008760269]
本稿では,新しいハッシュコード検索戦略を定式化することによって,高速ReIDのための新しいソリューションを提案する。
より短いコードを使用して、より正確なReIDのいくつかのトップ候補を洗練するために、より広い一致の類似性を粗くランク付けし、より長いコードを使用する。
2つのデータセットに対する実験結果から,提案手法(CtF)は現在のハッシュReID法よりも8%精度が高いだけでなく,5倍高速であることがわかった。
論文 参考訳(メタデータ) (2020-08-16T03:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。