論文の概要: Learning Code Preference via Synthetic Evolution
- arxiv url: http://arxiv.org/abs/2410.03837v1
- Date: Wed, 23 Oct 2024 22:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:00:59.472345
- Title: Learning Code Preference via Synthetic Evolution
- Title(参考訳): 合成進化によるコード優先学習
- Authors: Jiawei Liu, Thanh Nguyen, Mingyue Shang, Hantian Ding, Xiaopeng Li, Yu Yu, Varun Kumar, Zijian Wang,
- Abstract要約: 合成進化データからペアワイズコードの選好モデルを学習するためのフレームワークであるCodeFavorを提案する。
評価の結果、CodeFavorはモデルベースのコード優先の精度を最大28.8%改善した。
CodeFavorモデルは、34倍のコスト効率で、6-9倍のパラメータでモデルのパフォーマンスと一致させることができる。
- 参考スコア(独自算出の注目度): 20.897742297490275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have recently demonstrated remarkable coding capabilities. However, assessing code generation based on well-formed properties and aligning it with developer preferences remains challenging. In this paper, we explore two key questions under the new challenge of code preference learning: (i) How do we train models to predict meaningful preferences for code? and (ii) How do human and LLM preferences align with verifiable code properties and developer code tastes? To this end, we propose CodeFavor, a framework for training pairwise code preference models from synthetic evolution data, including code commits and code critiques. To evaluate code preferences, we introduce CodePrefBench, a benchmark comprising 1364 rigorously curated code preference tasks to cover three verifiable properties-correctness, efficiency, and security-along with human preference. Our evaluation shows that CodeFavor holistically improves the accuracy of model-based code preferences by up to 28.8%. Meanwhile, CodeFavor models can match the performance of models with 6-9x more parameters while being 34x more cost-effective. We also rigorously validate the design choices in CodeFavor via a comprehensive set of controlled experiments. Furthermore, we discover the prohibitive costs and limitations of human-based code preference: despite spending 23.4 person-minutes on each task, 15.1-40.3% of tasks remain unsolved. Compared to model-based preference, human preference tends to be more accurate under the objective of code correctness, while being sub-optimal for non-functional objectives.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近顕著なコーディング機能を示した。
しかし、十分に整ったプロパティに基づいてコード生成を評価し、それを開発者の好みに合わせることは依然として難しい。
本稿では,コード優先学習という新たな課題の下で,2つの重要な課題について考察する。
i) コードに対する意味のある嗜好を予測するためにモデルをトレーニングするにはどうすればよいか?
そして
(ii)人間とLLMの嗜好は、検証可能なコードプロパティや開発者コードの嗜好とどのように一致しますか?
この目的のために、コードコミットやコード批判を含む合成進化データからペアワイズなコード嗜好モデルをトレーニングするためのフレームワークであるCodeFavorを提案する。
コード優先性を評価するために,1364個の厳格にキュレートされたコード優先タスクからなるベンチマークであるCodePrefBenchを紹介した。
評価の結果、CodeFavorはモデルベースのコード優先の精度を最大28.8%改善した。
一方、CodeFavorモデルは、34倍のコスト効率で、6-9倍のパラメータでモデルのパフォーマンスと一致させることができる。
また、CodeFavorの設計選択を包括的な制御実験を通じて厳格に検証します。
さらに、各タスクに23.4パーソナライズしたにもかかわらず、15.1-40.3%のタスクは未解決のままである。
モデルに基づく嗜好と比較すると、人間の嗜好はコードの正確さを目標としつつ、機能的でない目的に準最適である傾向にある。
関連論文リスト
- DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。
DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文 参考訳(メタデータ) (2024-11-20T02:03:16Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - CodeReviewer: Pre-Training for Automating Code Review Activities [36.40557768557425]
本研究は,コードレビューシナリオにおけるタスクの事前学習技術を活用することに焦点を当てる。
私たちは、最も人気のある9つのプログラミング言語で、オープンソースのプロジェクトから、現実世界のコード変更とコードレビューの大規模なデータセットを収集します。
コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:40:13Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。