Fugu-MT 論文翻訳(概要): Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation

論文の概要: Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation

arxiv url: http://arxiv.org/abs/2502.14948v1
Date: Thu, 20 Feb 2025 18:32:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 23:44:09.965057
Title: Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation
Title（参考訳）: 問題解決と検証を学ぶ - コード生成とテスト生成のためのセルフプレイフレームワーク
Authors: Zi Lin, Sheng Shen, Jingbo Shang, Jason Weston, Yixin Nie,
Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
参考スコア（独自算出の注目度）: 69.62857948698436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large language models (LLMs) have improved their performance on coding benchmarks. However, improvement is plateauing due to the exhaustion of readily available high-quality data. Prior work has shown the potential of synthetic self-instruct data, but naively training on a model's own outputs can cause error accumulation, especially in coding tasks, where generalization may collapse due to overly simple or erroneous training data, highlighting the need for rigorous quality checks on synthetic data. In this work, we explore an effective approach whereby the model itself verifies the correctness of its own data. We thus propose Sol-Ver, a self-play solver-verifier framework that jointly improves a single model's code and test generation capacity. By iteratively refining code (LLM-as-a-solver) and tests (LLM-as-a-verifier) together, we boost both capabilities without relying on human annotations or larger teacher models. Experiments with the Llama 3.1 8B model demonstrate substantial performance enhancements, achieving average relative improvements of 19.63% in code generation and 17.49% in test generation on MBPP and LiveCodeBench.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。以前の研究は、合成自己指示データの可能性を示したが、特にコーディングタスクにおいて、モデル自身のアウトプットに対するナイーティブなトレーニングは、過度に単純または誤ったトレーニングデータによって一般化が崩壊し、合成データに対する厳密な品質チェックの必要性を浮き彫りにした、エラーの蓄積を引き起こす可能性がある。本研究では,モデル自体が自身のデータの正しさを検証できる効果的な手法を探索する。そこで我々は,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。コード (LLM-as-a-solver) とテスト (LLM-as-a-verifier) を反復的に書き換えることで、人間のアノテーションやより大きな教師モデルに頼ることなく、両方の能力を向上する。 Llama 3.1 8Bモデルによる実験では、MBPPとLiveCodeBenchにおけるコード生成の平均相対的な改善が19.63%、テスト生成の平均17.49%に達した。

関連論文リスト

Self-Correcting Code Generation Using Small Language Models [11.4397549365277]
自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。 1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
論文参考訳（メタデータ） (2025-05-29T04:04:44Z)
Iterative Self-Training for Code Generation via Reinforced Re-Ranking [5.77678027975395]
PPO(Proximal Policy Optimization)を用いた自己学習型リランカモデルのための新しい反復型自己学習手法を提案する。従来のPPOアプローチとは異なり、我々のアプローチは堅牢な報酬/報酬モデルの開発に重点を置いている。提案手法は,出力を再評価し,ハイスコアな負例を特定し,トレーニングループに組み込むことで,トレーニングデータセットを洗練する。
論文参考訳（メタデータ） (2025-04-13T16:34:17Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文参考訳（メタデータ） (2024-07-06T10:30:43Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文参考訳（メタデータ） (2024-06-03T16:21:38Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
Aligning Offline Metrics and Human Judgments of Value for Code Generation Models [25.726216146776054]
正確性は高価値な世代をキャプチャするが、プログラマは、コーディングタスクの完了に必要な全体的な労力を減らすことで、単体テストに失敗するコードを価値として評価する。本稿では,機能的正しさと構文的類似性を組み合わせたハイブリッド計量を提案し,値との相関が14%強いことを示す。
論文参考訳（メタデータ） (2022-10-29T05:03:28Z)
Using calibrator to improve robustness in Machine Reading Comprehension [18.844528744164876]
ポストホックリランカとしてキャリブレータを用いてロバスト性を向上させる手法を提案する。敵対的データセットを用いた実験結果から,我々のモデルは10%以上の性能向上を達成できることがわかった。
論文参考訳（メタデータ） (2022-02-24T02:16:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。