Fugu-MT 論文翻訳(概要): PLUM: Preference Learning Plus Test Cases Yields Better Code Language Models

論文の概要: PLUM: Preference Learning Plus Test Cases Yields Better Code Language Models

arxiv url: http://arxiv.org/abs/2406.06887v1
Date: Tue, 11 Jun 2024 02:07:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 19:36:38.622441
Title: PLUM: Preference Learning Plus Test Cases Yields Better Code Language Models
Title（参考訳）: PLUM: 優先学習プラステストケースはより良いコード言語モデルになる
Authors: Dylan Zhang, Shizhe Diao, Xueyan Zou, Hao Peng,
Abstract要約: PLUMは、コードLMにおける好み学習の重要な成功要因と潜在的利益について調査することを目的としている。 PLUMは、既存のコード生成ベンチマークにおける既存のコードLMのパフォーマンスを大幅に改善する。
参考スコア（独自算出の注目度）: 28.791570350483816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction-finetuned code language models (LMs) have shown promise in various programming tasks. They are trained, using a language modeling objective, on natural language instructions and gold code snippet pairs. Recent evidence suggests that these models, never exposed to incorrect solutions during training, often struggle to distinguish between correct and incorrect solutions. This observation raises our inquiry: Can preference learning, which trains models to prefer correct solutions over incorrect ones, help push the boundaries of code LMs even further? We propose PLUM, a novel \textbf{p}reference \textbf{l}earning framework a\textbf{u}gmented with test cases tailored for code L\textbf{M}s.PLUM aims to investigate the key success factors and potential benefits of preference learning in code LMs, which remain elusive despite its success in aligning LMs with human values. PLUM consists of three stages: (1) Generating test cases for natural language instructions, (2) sampling candidate solutions from the policy and evaluating them against the test cases to create a preference dataset, which is then used to (3) train the policy with a preference learning algorithm. Experiments demonstrate that PLUM substantially improves the performance of existing code LMs on established code generation benchmarks such as HumanEval (+) and MBPP (+), even for the state-of-the-art open-source language model CodeQwen-1.5-7B-Chat. PLUM complements the supervised fine-tuning (SFT) stage, demonstrating synergistic effects.
Abstract（参考訳）: 命令に精通したコード言語モデル(LM)は、様々なプログラミングタスクにおいて有望であることを示している。自然言語命令とゴールドコードスニペットペアに基づいて、言語モデリングの目的を使ってトレーニングされている。最近の証拠は、これらのモデルはトレーニング中に間違った解に晒されることがなく、しばしば正しい解と間違った解を区別するのに苦労していることを示唆している。不正なソリューションよりも正しいソリューションを好むようにモデルを訓練する選好学習は、コードLMの境界をさらに推し進めるのに役立ちますか? PLUMは、コードL\textbf{M}sに適したテストケースを具現化した、新規な \textbf{p}reference \textbf{l}earning framework a\textbf{u}earning framework a\textbf{u}gmented with code case of code L\textbf{M}s。 PLUMは、(1)自然言語命令のテストケースの生成、(2)ポリシーからの候補ソリューションのサンプリング、およびそれらのテストケースに対する評価の三段階からなる。 PLUMは、最先端のオープンソース言語モデルであるCodeQwen-1.5-7B-Chatであっても、HumanEval (+)やMBPP (+)のような既存のコード生成ベンチマークにおける既存のコードLMの性能を大幅に改善することを示した。 PLUMは制御された微調整(SFT)段階を補完し、相乗効果を示す。

関連論文リスト

Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Soft Policy Optimization: Online Off-Policy RL for Sequence Models [42.95110169230739]
言語モデルのポストトレーニングは、ほとんどPPOのようなオン・ポリティクス・メソッドを使って行われる。 SPOは、任意のオンラインおよびオフライン軌跡から学習可能なシーケンスモデルポリシーのための、シンプルでスケーラブルで原則化されたSoft RL手法である。
論文参考訳（メタデータ） (2025-03-07T14:23:40Z)
Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。この設定で PbRL に関する最初の理論的保証を提供し、単純ベイズ的後悔の上限を確立する。
論文参考訳（メタデータ） (2025-01-31T03:55:10Z)
Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文参考訳（メタデータ） (2024-06-27T14:03:49Z)
Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。 VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文参考訳（メタデータ） (2024-05-10T17:59:04Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文参考訳（メタデータ） (2024-02-22T18:20:33Z)
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-31T16:24:17Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。 Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-28T08:30:01Z)
$k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。 $k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-03-24T06:16:29Z)
An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文参考訳（メタデータ） (2021-12-09T23:13:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。