論文の概要: $\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases
- arxiv url: http://arxiv.org/abs/2406.06887v4
- Date: Sat, 12 Oct 2024 06:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 10:53:36.364928
- Title: $\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases
- Title(参考訳): $\textbf{PLUM}$: シンセティックテストケースによって駆動される実行ガイドオン・プライオリティ学習によるコードLMの改善
- Authors: Dylan Zhang, Shizhe Diao, Xueyan Zou, Hao Peng,
- Abstract要約: 刑法上の$textbfP$reference $textbfL$earning framework A$textbfu$gmented with test case for code L$textbfM$ s。
PLUMは報酬モデルをトレーニングする必要性を緩和し、大規模なオンラインとオンラインの嗜好データ照合を可能にする。
PLUMの利点は、SFTで十分に訓練されていなくても、様々な広く使われているコードLM間で一貫性があることを示します。
- 参考スコア(独自算出の注目度): 28.791570350483816
- License:
- Abstract: Preference learning provides a promising solution to address the limitations of supervised fine-tuning (SFT) for code language models, where the model is not explicitly trained to differentiate between correct and incorrect code. Recent findings demonstrate that on-policy data is the key to successful preference learning, where the preference data is collected using the same policy LM being trained. Inspired by this, we propose PLUM, an on-policy $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented with test cases for code L$\textbf{M}$ s. The framework operates in three key stages: (1) automatic generation of test cases from natural language instructions, (2) creation of a preference data by evaluating candidate code solutions sampled from the policy, which can then be used to (3) train the policy LM. PLUM levitates the need to train reward models, allowing for large scale on-policy and online preference data collation. PLUM is evaluated on both standard benchmarks (HumanEval, MBPP) and more challenging ones (LiveCodeBench), delivering substantial improvements over original SFT'ed models and other execution-feedback-driven approaches. We show PLUM's benefits are consistent across various widely-used code LMs even they have been well-trained with SFT. For example, PLUM increases pass rates by up to 4.8% on average on standard benchmarks and 11.8% on LiveCodeBench, demonstrating its effectiveness and generalizability. We also demonstrate the benefits of on-policy and online preference learning by comprehensive experimentation.
- Abstract(参考訳): 優先順位学習は、コード言語モデルの教師付き微調整(SFT)の限界に対処する、有望なソリューションを提供する。
近年の研究では、政策上のデータが嗜好学習の成功の鍵であることが示されており、そこでは、嗜好データをトレーニング中のLMと同じポリシーを用いて収集する。
このことに触発されたPLUMは、コード L$\textbf{M}$ s のテストケースを備えた、オンラインの $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented である。
このフレームワークは,(1)自然言語によるテストケースの自動生成,(2)ポリシーからサンプリングされた候補コードソリューションの評価による嗜好データの作成,(3)ポリシーLMのトレーニング,という3つの重要な段階で動作する。
PLUMは報酬モデルをトレーニングする必要性を緩和し、大規模なオンラインとオンラインの嗜好データ照合を可能にする。
PLUMは標準ベンチマーク(HumanEval、MBPP)とLiveCodeBench(LiveCodeBench)の両方で評価されており、オリジナルのSFTモデルや他の実行フィードバック駆動アプローチよりも大幅に改善されている。
PLUMの利点は、SFTで十分に訓練されていなくても、様々な広く使われているコードLM間で一貫性があることを示します。
例えば、PLUMは標準ベンチマークで平均4.8%、LiveCodeBenchで11.8%、パスレートが最大4.8%向上し、その有効性と一般化性を示している。
また、総合実験によるオンライン・プライオリティ・ラーニングとオンライン・プライオリティ・ラーニングのメリットを実証した。
関連論文リスト
- Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文 参考訳(メタデータ) (2023-03-28T16:15:31Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。