論文の概要: DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs
- arxiv url: http://arxiv.org/abs/2411.13611v2
- Date: Tue, 26 Nov 2024 00:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:37:23.298348
- Title: DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs
- Title(参考訳): DSTC: 自己生成テストのみによる直接選好学習とコードLM改善のためのコード
- Authors: Zhihan Liu, Shenao Zhang, Zhaoran Wang,
- Abstract要約: UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。
DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
- 参考スコア(独自算出の注目度): 56.24431208419858
- License:
- Abstract: Direct preference learning offers a promising and computation-efficient beyond supervised fine-tuning (SFT) for improving code generation in coding large language models (LMs). However, the scarcity of reliable preference data is a bottleneck for the performance of direct preference learning to improve the coding accuracy of code LMs. In this paper, we introduce \underline{\textbf{D}}irect Preference Learning with Only \underline{\textbf{S}}elf-Generated \underline{\textbf{T}}ests and \underline{\textbf{C}}ode (DSTC), a framework that leverages only self-generated code snippets and tests to construct reliable preference pairs such that direct preference learning can improve LM coding accuracy without external annotations. DSTC combines a minimax selection process and test-code concatenation to improve preference pair quality, reducing the influence of incorrect self-generated tests and enhancing model performance without the need for costly reward models. When applied with direct preference learning methods such as Direct Preference Optimization (DPO) and Kahneman-Tversky Optimization (KTO), DSTC yields stable improvements in coding accuracy (pass@1 score) across diverse coding benchmarks, including HumanEval, MBPP, and BigCodeBench, demonstrating both its effectiveness and scalability for models of various sizes. This approach autonomously enhances code generation accuracy across LLMs of varying sizes, reducing reliance on expensive annotated coding datasets.
- Abstract(参考訳): 直接選好学習は、大規模言語モデル(LM)のコーディングにおけるコード生成を改善するための教師付き微調整(SFT)を超える有望かつ計算効率を提供する。
しかし、信頼度の高い選好データの不足は、直接選好学習のパフォーマンスのボトルネックとなり、コードLMのコーディング精度が向上する。
本稿では,自己生成コードスニペットのみを利用したフレームワークであるShaunderline{\textbf{D}}irect Preference Learning with Only \underline{\textbf{S}}elf-Generated \underline{\textbf{T}}ests and \underline{\textbf{C}}ode (DSTC)を紹介する。
DSTCはミニマックス選択プロセスとテストコード結合を組み合わせることで、好みのペアの品質を改善し、不正な自己生成テストの影響を低減し、コストのかかる報酬モデルを必要としないモデル性能を向上させる。
直接選好最適化(DPO)やKTO(Kahneman-Tversky Optimization)といった直接選好学習手法を適用すると、DSTCは、HumanEval、MBPP、BigCodeBenchを含む様々なコーディングベンチマークにおいて、コーディング精度(pass@1スコア)の安定した改善を実現し、様々なサイズのモデルの有効性とスケーラビリティを実証する。
このアプローチは、さまざまなサイズのLCMにわたるコード生成精度を自律的に向上し、高価なアノテートされたコーディングデータセットへの依存を低減します。
関連論文リスト
- Direct Preference Optimization Using Sparse Feature-Level Constraints [47.15096507230884]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization [34.29833630422768]
Adversarial Contrastive Decoding (ACD)は、プロンプトベースのコントラストデコーディングのための2つの逆のシステムプロンプトを生成する最適化ベースのフレームワークである。
ACDは、元の生成能力を犠牲にすることなく、従来のトレーニング不要復号法よりもはるかに優れた安全性を実現する。
論文 参考訳(メタデータ) (2024-06-24T15:51:30Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文 参考訳(メタデータ) (2023-10-01T23:27:14Z) - MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods [13.56549575939123]
モデルパープレキシティとvs品質のミスマッチを軽減するために、ファインタニングとQEファインタニングを提案する。
自己学習においても,これらのファインタニング手法はベースモデルよりも有意に優れていることを示す。
これらの結果は、モノリンガルデータを活用する新たな方法が、人間の計算データと同等かそれ以上のモデル品質の向上を実現することを示唆している。
論文 参考訳(メタデータ) (2023-09-19T23:39:07Z) - Cost-Sensitive Self-Training for Optimizing Non-Decomposable Metrics [9.741019160068388]
本稿では,非分解性メトリクスを最適化するための自己学習手法を一般化したCSSTフレームワークを紹介する。
以上の結果から,CSSTはデータセットや目的にまたがるほとんどのケースにおいて,最先端の改善を実現していることが示された。
論文 参考訳(メタデータ) (2023-04-28T10:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。