Fugu-MT 論文翻訳(概要): $\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases

論文の概要: $\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases

arxiv url: http://arxiv.org/abs/2406.06887v4
Date: Sat, 12 Oct 2024 06:09:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 16:45:11.408189
Title: $\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases
Title（参考訳）: $\textbf{PLUM}$: シンセティックテストケースによって駆動される実行ガイドオン・プライオリティ学習によるコードLMの改善
Authors: Dylan Zhang, Shizhe Diao, Xueyan Zou, Hao Peng,
Abstract要約: 刑法上の$textbfP$reference $textbfL$earning framework A$textbfu$gmented with test case for code L$textbfM$ s。 PLUMは報酬モデルをトレーニングする必要性を緩和し、大規模なオンラインとオンラインの嗜好データ照合を可能にする。 PLUMの利点は、SFTで十分に訓練されていなくても、様々な広く使われているコードLM間で一貫性があることを示します。
参考スコア（独自算出の注目度）: 28.791570350483816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Preference learning provides a promising solution to address the limitations of supervised fine-tuning (SFT) for code language models, where the model is not explicitly trained to differentiate between correct and incorrect code. Recent findings demonstrate that on-policy data is the key to successful preference learning, where the preference data is collected using the same policy LM being trained. Inspired by this, we propose PLUM, an on-policy $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented with test cases for code L$\textbf{M}$ s. The framework operates in three key stages: (1) automatic generation of test cases from natural language instructions, (2) creation of a preference data by evaluating candidate code solutions sampled from the policy, which can then be used to (3) train the policy LM. PLUM levitates the need to train reward models, allowing for large scale on-policy and online preference data collation. PLUM is evaluated on both standard benchmarks (HumanEval, MBPP) and more challenging ones (LiveCodeBench), delivering substantial improvements over original SFT'ed models and other execution-feedback-driven approaches. We show PLUM's benefits are consistent across various widely-used code LMs even they have been well-trained with SFT. For example, PLUM increases pass rates by up to 4.8% on average on standard benchmarks and 11.8% on LiveCodeBench, demonstrating its effectiveness and generalizability. We also demonstrate the benefits of on-policy and online preference learning by comprehensive experimentation.
Abstract（参考訳）: 優先順位学習は、コード言語モデルの教師付き微調整(SFT)の限界に対処する、有望なソリューションを提供する。近年の研究では、政策上のデータが嗜好学習の成功の鍵であることが示されており、そこでは、嗜好データをトレーニング中のLMと同じポリシーを用いて収集する。このことに触発されたPLUMは、コード L$\textbf{M}$ s のテストケースを備えた、オンラインの $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented である。このフレームワークは,(1)自然言語によるテストケースの自動生成,(2)ポリシーからサンプリングされた候補コードソリューションの評価による嗜好データの作成,(3)ポリシーLMのトレーニング,という3つの重要な段階で動作する。 PLUMは報酬モデルをトレーニングする必要性を緩和し、大規模なオンラインとオンラインの嗜好データ照合を可能にする。 PLUMは標準ベンチマーク(HumanEval、MBPP)とLiveCodeBench(LiveCodeBench)の両方で評価されており、オリジナルのSFTモデルや他の実行フィードバック駆動アプローチよりも大幅に改善されている。 PLUMの利点は、SFTで十分に訓練されていなくても、様々な広く使われているコードLM間で一貫性があることを示します。例えば、PLUMは標準ベンチマークで平均4.8%、LiveCodeBenchで11.8%、パスレートが最大4.8%向上し、その有効性と一般化性を示している。また、総合実験によるオンライン・プライオリティ・ラーニングとオンライン・プライオリティ・ラーニングのメリットを実証した。

関連論文リスト

SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文参考訳（メタデータ） (2026-01-29T09:56:15Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。 PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文参考訳（メタデータ） (2025-04-18T17:49:55Z)
Soft Policy Optimization: Online Off-Policy RL for Sequence Models [42.95110169230739]
言語モデルのポストトレーニングは、ほとんどPPOのようなオン・ポリティクス・メソッドを使って行われる。 SPOは、任意のオンラインおよびオフライン軌跡から学習可能なシーケンスモデルポリシーのための、シンプルでスケーラブルで原則化されたSoft RL手法である。
論文参考訳（メタデータ） (2025-03-07T14:23:40Z)
Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。この設定で PbRL に関する最初の理論的保証を提供し、単純ベイズ的後悔の上限を確立する。
論文参考訳（メタデータ） (2025-01-31T03:55:10Z)
Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文参考訳（メタデータ） (2024-06-27T14:03:49Z)
Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。 VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文参考訳（メタデータ） (2024-05-10T17:59:04Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文参考訳（メタデータ） (2024-02-22T18:20:33Z)
Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
ヒューマンフィードバック(RLHF)からの強化学習を用いた大規模言語モデル(LLM)のアライメント状況の均一なサンプリングは、最適政策と一定の準最適差を被る政策につながる可能性があることを示す。我々は,最も不確実なコンテキストに対する嗜好を反復的に収集するアルゴリズムである$textttAPO$を提案する。
論文参考訳（メタデータ） (2024-02-16T08:19:34Z)
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-31T16:24:17Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。 Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-28T08:30:01Z)
$k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。 $k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-03-24T06:16:29Z)
An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文参考訳（メタデータ） (2021-12-09T23:13:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。