論文の概要: CodeLutra: Boosting LLM Code Generation via Preference-Guided Refinement
- arxiv url: http://arxiv.org/abs/2411.05199v2
- Date: Thu, 19 Dec 2024 18:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:44.513858
- Title: CodeLutra: Boosting LLM Code Generation via Preference-Guided Refinement
- Title(参考訳): CodeLutra: 優先度ガイドによるリファインメントによるLLMコード生成の促進
- Authors: Leitian Tao, Xiang Chen, Tong Yu, Tung Mai, Ryan Rossi, Yixuan Li, Saayan Mitra,
- Abstract要約: 大規模言語モデル(LLM)はコード生成に革命をもたらしたが、かなりのリソースを必要とし、しばしば過度に一般化する。
私たちは、正しいコード試行と間違ったコード試行の両方を活用するフレームワークであるCodeLutraを紹介します。
成功と失敗の両方から学ぶことで、CodeLutraは、高品質なコード生成へのスケーラブルで効率的なパスを提供する。
- 参考スコア(独自算出の注目度): 32.46078765471136
- License:
- Abstract: Large Language Models (LLMs) have revolutionized code generation but require significant resources and often over-generalize, limiting their task-specific efficiency. Fine-tuning smaller, open-source LLMs provides a cost-effective alternative. However, standard supervised approaches rely only on correct examples, missing valuable insights from failures. We introduce CodeLutra, a framework that leverages both correct and incorrect code attempts. Instead of using only correct solutions, CodeLutra applies iterative preference-based refinement, comparing successful and failed outputs to better approximate desired results. This approach narrows the performance gap with state-of-the-art larger models without requiring massive datasets or auxiliary models. For instance, on a challenging data science coding task, using only 500 samples improved Llama-3-8B's accuracy from 28.2% to 48.6%, approaching GPT-4's level. By learning from both successes and mistakes, CodeLutra provides a scalable and efficient path to high-quality code generation, making smaller open-source models more competitive with leading closed-source alternatives.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成に革命をもたらしたが、重要なリソースを必要とし、多くの場合は過度に一般化し、タスク固有の効率を制限する。
小型でオープンソースのLCMはコスト効率の良い代替手段を提供する。
しかし、標準的な教師付きアプローチは正しい例にのみ依存し、失敗からの貴重な洞察を欠いている。
私たちは、正しいコード試行と間違ったコード試行の両方を活用するフレームワークであるCodeLutraを紹介します。
正しい解のみを使用する代わりに、CodeLutraは反復的な嗜好に基づく洗練を適用し、成功と失敗の出力を比較して、望ましい結果をよりよく近似する。
このアプローチは、大量のデータセットや補助モデルを必要とすることなく、最先端の大規模モデルとパフォーマンスギャップを狭める。
例えば、挑戦的なデータサイエンスコーディングタスクでは、わずか500個のサンプルを使用して、Llama-3-8Bの精度を28.2%から48.6%に改善し、GPT-4のレベルに近づいた。
成功と失敗の両方から学ぶことで、CodeLutraは、高品質なコード生成へのスケーラブルで効率的なパスを提供する。
関連論文リスト
- Precision or Peril: Evaluating Code Quality from Quantized Large Language Models [0.5249805590164902]
量子化は、大規模言語モデルのメモリオーバーヘッドを軽減する手段として登場した。
本研究の目的は、様々なメトリクスを用いて、より小さなLCMのコード生成能力を評価することである。
論文 参考訳(メタデータ) (2024-11-16T01:31:29Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection [54.775409528658486]
OriGenは、セルフリフレクション機能と新しいデータセット拡張方法論を組み込んだ、完全なオープンソースフレームワークである。
このアプローチでは,オープンソースのRTLコードデータセットの品質向上のために,コード-コード拡張技術を採用している。
論文 参考訳(メタデータ) (2024-07-23T07:22:25Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - Enhancing Code Generation Performance of Smaller Models by Distilling the Reasoning Ability of LLMs [36.409470894115074]
我々は、LLMのコード生成推論機能をより小さなモデルに転送することを目的としたCodePLANフレームワークを提案する。
提案手法は,APPSベンチマークにおいて,より小さなモデルのコード生成性能を130%以上向上させる。
論文 参考訳(メタデータ) (2024-03-20T03:09:54Z) - SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。
複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。