論文の概要: SwiftCoder: Enhancing Code Generation in Large Language Models through Efficiency-Aware Fine-tuning
- arxiv url: http://arxiv.org/abs/2410.10209v3
- Date: Mon, 31 Mar 2025 07:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:31:43.980698
- Title: SwiftCoder: Enhancing Code Generation in Large Language Models through Efficiency-Aware Fine-tuning
- Title(参考訳): SwiftCoder: 効率性を考慮した微調整による大規模言語モデルにおけるコード生成の強化
- Authors: Dong Huang, Guangtao Zeng, Jianbo Dai, Meng Luo, Han Weng, Yuhao Qing, Heming Cui, Zhijiang Guo, Jie M. Zhang,
- Abstract要約: 現在の手法は主に正確さに重点を置いており、しばしば効率性を見落としている。
データセットは、AI駆動のコード生成を進めるためのスケーラブルで効果的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 17.355845751737423
- License:
- Abstract: As large language models (LLMs) play an increasingly important role in code generation, enhancing both correctness and efficiency has become crucial. Current methods primarily focus on correctness, often overlooking efficiency. To address this gap, we introduce \dataset to improve both aspects by fine-tuning LLMs on a high-quality dataset comprising correct and efficient code samples. Our methodology involves leveraging multiple LLMs to generate diverse candidate code solutions for various tasks across different programming languages. We then evaluate these solutions by directly measuring their execution time and memory usage through local execution. The code solution with the lowest execution time and memory consumption is selected as the final output for each task. Experimental results demonstrate significant improvements when fine-tuning with \dataset. For instance, Qwen2.5-Coder-7B-Instruct's pass@1 score increases from 44.8\% to 57.7\%, while the average execution time for correct tasks decreases by 48.4\%. \dataset offers a scalable and effective solution for advancing AI-driven code generation, benefiting both software development and computational problem-solving. The source code of Effi-Code was released in https://github.com/huangd1999/Effi-Code.
- Abstract(参考訳): 大きな言語モデル(LLM)がコード生成においてますます重要な役割を担っているため、正確性と効率性の両方を高めることが重要になっている。
現在の手法は主に正確さに重点を置いており、しばしば効率性を見落としている。
このギャップに対処するために,我々は,正当かつ効率的なコードサンプルを含む高品質なデータセット上でLLMを微調整することで,両方の側面を改善するために \dataset を導入する。
提案手法では,複数のLLMを多種多様なプログラミング言語の様々なタスクに対する多様な候補コードソリューションの生成に活用する。
次に、ローカル実行による実行時間とメモリ使用量を直接測定することで、これらのソリューションを評価する。
各タスクの最終的な出力として、実行時間とメモリ消費が最少のコードソリューションを選択する。
実験結果から, \dataset を用いた微調整では顕著な改善が得られた。
例えば、Qwen2.5-Coder-7B-Instructのpass@1スコアは44.8\%から57.7\%に増加し、正しいタスクの実行時間の平均は48.4\%に減少する。
\datasetは、AI駆動のコード生成を進めるためのスケーラブルで効果的なソリューションを提供する。
Effi-Codeのソースコードはhttps://github.com/huangd 1999/Effi-Codeでリリースされた。
関連論文リスト
- ACECode: A Reinforcement Learning Framework for Aligning Code Efficiency and Correctness in Code Language Models [9.4219427550154]
SOAP や PIE のような CodeLLM のコード効率を最適化するための既存のアプローチには、いくつかの制限がある。
ACECodeは、強化学習に基づく微調整フレームワークで、CodeLLMを効率と正確性の2つの目的に合わせる。
ACECodeは4つのSOTA (state-of-the-art) CodeLLMを微調整し、それらのコードをオリジナル、命令調整、PIE調整の3つのベースラインと比較することで評価する。
論文 参考訳(メタデータ) (2024-12-23T04:19:45Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Rethinking Code Refinement: Learning to Judge Code Efficiency [60.04718679054704]
大規模言語モデル(LLM)は、コードを理解して生成する素晴らしい能力を示しています。
本稿では,2つの異なる符号間の効率を判定するために訓練されたコード言語モデルに基づく新しい手法を提案する。
提案手法は,複数の改良ステップで複数のプログラミング言語に対して検証し,より効率的で少ないバージョンのコードの識別を効果的に行うことができることを示した。
論文 参考訳(メタデータ) (2024-10-29T06:17:37Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? [12.862825053595934]
ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。
実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
論文 参考訳(メタデータ) (2024-07-19T05:47:40Z) - EffiLearner: Enhancing Efficiency of Generated Code via Self-Optimization [16.238980494717303]
大規模言語モデル(LLM)は、コード生成の著しい進歩を示しているが、生成されたコードは、しばしば非効率に悩まされる。
実行オーバーヘッドプロファイルを利用した自己最適化フレームワークである textbfEffiLearner を提案する。
EffiLearnerはまずLLMを使ってコードを生成し、その後ローカルに実行し、実行時間とメモリ使用率プロファイルをキャプチャする。
論文 参考訳(メタデータ) (2024-05-24T03:48:15Z) - EffiBench: Benchmarking the Efficiency of Automatically Generated Code [16.19693502619949]
EffiBenchは1,000の効率クリティカルコーディング問題のあるベンチマークである。
それぞれの問題は、実行可能な人間記述の標準解とペアリングされる。
我々は42の大規模言語モデルによる効率的なコード生成能力を実証的に検証した。
論文 参考訳(メタデータ) (2024-02-03T05:24:39Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。