Fugu-MT 論文翻訳(概要): Iterative Self-Training for Code Generation via Reinforced Re-Ranking

論文の概要: Iterative Self-Training for Code Generation via Reinforced Re-Ranking

arxiv url: http://arxiv.org/abs/2504.09643v1
Date: Sun, 13 Apr 2025 16:34:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-23 03:37:46.880364
Title: Iterative Self-Training for Code Generation via Reinforced Re-Ranking
Title（参考訳）: Reinforced Re-Rankingによるコード生成の反復的自己学習
Authors: Nikita Sorokin, Ivan Sedykh, Valentin Malykh,
Abstract要約: PPO(Proximal Policy Optimization)を用いた自己学習型リランカモデルのための新しい反復型自己学習手法を提案する。従来のPPOアプローチとは異なり、我々のアプローチは堅牢な報酬/報酬モデルの開発に重点を置いている。提案手法は,出力を再評価し,ハイスコアな負例を特定し,トレーニングループに組み込むことで,トレーニングデータセットを洗練する。
参考スコア（独自算出の注目度）: 5.77678027975395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating high-quality code that solves complex programming tasks is challenging, especially with current decoder-based models that produce highly stochastic outputs. In code generation, even minor errors can easily break the entire solution. Leveraging multiple sampled solutions can significantly improve the overall output quality. One effective way to enhance code generation is by pairing a code generation model with a reranker model, which selects the best solution from the generated samples. We propose a novel iterative self-training approach for self-training reranker models using Proximal Policy Optimization (PPO), aimed at improving both reranking accuracy and the overall code generation process. Unlike traditional PPO approaches, where the focus is on optimizing a generative model with a reward model, our approach emphasizes the development of a robust reward/reranking model. This model improves the quality of generated code through reranking and addresses problems and errors that the reward model might overlook during PPO alignment with the reranker. Our method iteratively refines the training dataset by re-evaluating outputs, identifying high-scoring negative examples, and incorporating them into the training loop, that boosting model performance. Our evaluation on the MultiPL-E dataset demonstrates that our 13.4B parameter model outperforms a 33B model in code generation quality while being three times faster. Moreover, it achieves performance comparable to GPT-4 and surpasses it in one programming language.
Abstract（参考訳）: 複雑なプログラミングタスクを解決する高品質なコードを生成することは、特に高度に確率的な出力を生成する現在のデコーダベースのモデルでは困難である。コード生成では、小さなエラーでもソリューション全体を簡単に壊すことができます。複数のサンプルソリューションを活用することで、全体的なアウトプット品質が大幅に向上する。コード生成を強化する効果的な方法の1つは、コード生成モデルと再ランカモデルとをペアにすることで、生成されたサンプルから最良のソリューションを選択することである。本稿では, PPO (Proximal Policy Optimization) を用いた自己学習型リランカモデルに対する新たな自己学習手法を提案する。報酬モデルで生成モデルを最適化することに焦点を当てた従来のPPOアプローチとは異なり、我々のアプローチは堅牢な報酬/報酬モデルの開発を強調する。このモデルは、再ランク付けによって生成されたコードの品質を改善し、リランカとのPPOアライメント中に報酬モデルが見落としてしまう可能性のある問題やエラーに対処する。提案手法は,出力を再評価し,ハイスコアな負例を特定し,トレーニングループに組み込むことでトレーニングデータセットを反復的に洗練し,モデル性能を向上する。また,MultiPL-Eデータセットを用いた評価の結果,13.4Bパラメータモデルではコード生成品質が33Bモデルよりも3倍高速であることがわかった。さらに、GPT-4に匹敵する性能を達成し、1つのプログラミング言語でそれを上回ります。

関連論文リスト

Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback [21.858896845159208]
大規模言語モデル(LLM)は、視覚的に関連する設計をコンパイルし、生成するUIコードを生成するのに苦労する。生成を改善するための既存のアプローチは、高価な人間のフィードバックやプロプライエタリなモデルを蒸留することに依存している。提案手法は,既存のLLMから始まり,大規模合成データセットを自己生成することにより,改良されたモデルを反復的に生成する。
論文参考訳（メタデータ） (2024-06-11T21:53:46Z)
Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文参考訳（メタデータ） (2024-06-03T16:21:38Z)
Non-autoregressive Generative Models for Reranking Recommendation [9.854541524740549]
推薦システムでは、項目間のリスト内相関をモデル化することで、リランクが重要な役割を果たす。本研究では, 効率と効率性を高めるために, 提案するレコメンデーション(NAR4Rec)の再評価のための非自己回帰生成モデルを提案する。 NAR4Recは、毎日3億人のアクティブユーザーがいる人気ビデオアプリKuaishouに完全にデプロイされている。
論文参考訳（メタデータ） (2024-02-10T03:21:13Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Precision-Recall Divergence Optimization for Generative Modeling with GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-05-30T10:07:17Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文参考訳（メタデータ） (2021-10-21T13:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。