論文の概要: $\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases
- arxiv url: http://arxiv.org/abs/2406.06887v3
- Date: Thu, 10 Oct 2024 17:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 10:39:11.369385
- Title: $\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases
- Title(参考訳): $\textbf{PLUM}$: シンセティックテストケースによって駆動される実行ガイドオン・プライオリティ学習によるコードLMの改善
- Authors: Dylan Zhang, Shizhe Diao, Xueyan Zou, Hao Peng,
- Abstract要約: 刑法上の$textbfP$reference $textbfL$earning framework A$textbfu$gmented with test case for code L$textbfM$ s。
PLUMは報酬モデルをトレーニングする必要性を緩和し、大規模なオンラインとオンラインの嗜好データ照合を可能にする。
PLUMの利点は、SFTで十分に訓練されていなくても、様々な広く使われているコードLM間で一貫性があることを示します。
- 参考スコア(独自算出の注目度): 28.791570350483816
- License:
- Abstract: Preference learning provides a promising solution to address the limitations of supervised fine-tuning (SFT) for code language models, where the model is not explicitly trained to differentiate between correct and incorrect code. Recent findings demonstrate that on-policy data is the key to successful preference learning, where the preference data is collected using the same policy LM being trained. Inspired by this, we propose PLUM, an on-policy $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented with test cases for code L$\textbf{M}$ s. The framework operates in three key stages: (1) automatic generation of test cases from natural language instructions, (2) creation of a preference data by evaluating candidate code solutions sampled from the policy, which can then be used to (3) train the policy LM. PLUM levitates the need to train reward models, allowing for large scale on-policy and online preference data collation. PLUM is evaluated on both standard benchmarks (HumanEval, MBPP) and more challenging ones (LiveCodeBench), delivering substantial improvements over original SFT'ed models and other execution-feedback-driven approaches. We show PLUM's benefits are consistent across various widely-used code LMs even they have been well-trained with SFT. For example, PLUM increases pass rates by up to 4.8% on average on standard benchmarks and 11.8% on LiveCodeBench, demonstrating its effectiveness and generalizability. We also demonstrate the benefits of on-policy and online preference learning by comprehensive experimentation.
- Abstract(参考訳): 優先順位学習は、コード言語モデルの教師付き微調整(SFT)の限界に対処する、有望なソリューションを提供する。
近年の研究では、政策上のデータが嗜好学習の成功の鍵であることが示されており、そこでは、嗜好データをトレーニング中のLMと同じポリシーを用いて収集する。
このことに触発されたPLUMは、コード L$\textbf{M}$ s のテストケースを備えた、オンラインの $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented である。
このフレームワークは,(1)自然言語によるテストケースの自動生成,(2)ポリシーからサンプリングされた候補コードソリューションの評価による嗜好データの作成,(3)ポリシーLMのトレーニング,という3つの重要な段階で動作する。
PLUMは報酬モデルをトレーニングする必要性を緩和し、大規模なオンラインとオンラインの嗜好データ照合を可能にする。
PLUMは標準ベンチマーク(HumanEval、MBPP)とLiveCodeBench(LiveCodeBench)の両方で評価されており、オリジナルのSFTモデルや他の実行フィードバック駆動アプローチよりも大幅に改善されている。
PLUMの利点は、SFTで十分に訓練されていなくても、様々な広く使われているコードLM間で一貫性があることを示します。
例えば、PLUMは標準ベンチマークで平均4.8%、LiveCodeBenchで11.8%、パスレートが最大4.8%向上し、その有効性と一般化性を示している。
また、総合実験によるオンライン・プライオリティ・ラーニングとオンライン・プライオリティ・ラーニングのメリットを実証した。
関連論文リスト
- Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。
人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。
本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文 参考訳(メタデータ) (2024-02-22T18:20:33Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。