論文の概要: CodeDPO: Aligning Code Models with Self Generated and Verified Source Code
- arxiv url: http://arxiv.org/abs/2410.05605v1
- Date: Tue, 8 Oct 2024 01:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:38:51.488954
- Title: CodeDPO: Aligning Code Models with Self Generated and Verified Source Code
- Title(参考訳): CodeDPO: 自己生成および検証されたソースコードでコードモデルを調整する
- Authors: Kechi Zhang, Ge Li, Yihong Dong, Jingjing Xu, Jun Zhang, Jing Su, Yongfei Liu, Zhi Jin,
- Abstract要約: 我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
- 参考スコア(独自算出の注目度): 52.70310361822519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation models have shown significant potential for programming tasks. However, existing training methods like supervised fine-tuning face key limitations: they do not effectively teach models to prioritize correct over incorrect solutions in ambiguous situations, nor do they effectively optimize the runtime efficiency of the generated code. To address these challenges, we propose CodeDPO, a framework that integrates preference learning into code generation to improve two key code preference factors: code correctness and efficiency. CodeDPO employs a novel dataset construction method, utilizing a self-generation-and-validation mechanism that simultaneously generates and evaluates code and test cases. The underlying assumption is that test cases executable by multiple code snippets provide more reliable validation, and code that passes more tests is more likely to be correct. Through this self-validation process, our PageRank-inspired algorithm iteratively updates the ranking score of each code snippet, ultimately creating a code preference optimization dataset based on correctness and efficiency. CodeDPO is flexible and scalable, generating diverse preference optimization data without depending on external resources. Through comprehensive evaluations of five widely used benchmarks, CodeDPO demonstrates significant improvements in correctness and efficiency compared to existing methods. Our experiments prove that CodeDPO enhances the capabilities of LLMs in code generation and provides a robust foundation for conducting code preference optimization in more complex and challenging real-world scenarios.
- Abstract(参考訳): コード生成モデルは、プログラミングタスクに大きな可能性を示している。
しかし、教師付き微調整のような既存のトレーニング手法では、曖昧な状況で正しい解決策を優先するようモデルに効果的に教えたり、生成されたコードの実行効率を効果的に最適化したりしない。
これらの課題に対処するため,コード生成に優先学習を統合するフレームワークであるCodeDPOを提案する。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
根底にある前提は、複数のコードスニペットによって実行可能なテストケースはより信頼性の高いバリデーションを提供し、より多くのテストに合格するコードはより正しい可能性が高い、ということである。
この自己検証プロセスを通じて、PageRankにインスパイアされたアルゴリズムは、各コードスニペットのランキングスコアを反復的に更新し、最終的に正確性と効率に基づいたコード優先最適化データセットを作成します。
CodeDPOは柔軟でスケーラブルで、外部リソースに依存しない多様な好みの最適化データを生成する。
広く使用されている5つのベンチマークの総合的な評価を通じて、CodeDPOは既存の方法と比較して精度と効率が大幅に向上したことを示した。
我々の実験は、コード生成におけるLLMの機能を強化し、より複雑で挑戦的な現実のシナリオでコード優先の最適化を行うための堅牢な基盤を提供することを示した。
関連論文リスト
- DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。
DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文 参考訳(メタデータ) (2024-11-20T02:03:16Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Effi-Code: Unleashing Code Efficiency in Language Models [17.355845751737423]
Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。
Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-14T07:05:51Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Measuring Code Efficiency Optimization Capabilities with ACEOB [7.4056083791645495]
モデルトレーニングデータセットの「コードパターン」を詳細に分析し、人間の手書きコードを慎重に探索する。
95,359組の効率非効率コードからなる自動コード効率最適化ベンチマーク(ACEOB)を導入する。
私たちの知る限り、ACEOBはPythonコードの効率最適化に特化した最初のデータセットです。
論文 参考訳(メタデータ) (2024-08-23T10:10:37Z) - Search-Based LLMs for Code Optimization [16.843870288512363]
開発者によって書かれたコードは、通常効率上の問題に悩まされ、様々なパフォーマンス上のバグを含んでいる。
最近の研究は、タスクをシーケンス生成問題とみなし、大規模言語モデル(LLM)のようなディープラーニング(DL)技術を活用している。
改良された最適化手法の反復的洗練と発見を可能にする,SBLLM という検索ベース LLM フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T06:59:46Z) - ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? [12.862825053595934]
ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。
実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
論文 参考訳(メタデータ) (2024-07-19T05:47:40Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。
PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。
PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文 参考訳(メタデータ) (2023-01-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。