論文の概要: Effi-Code: Unleashing Code Efficiency in Language Models
- arxiv url: http://arxiv.org/abs/2410.10209v2
- Date: Sat, 19 Oct 2024 12:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 17:02:19.375444
- Title: Effi-Code: Unleashing Code Efficiency in Language Models
- Title(参考訳): Effi-Code: 言語モデルにおけるコード効率の解放
- Authors: Dong Huang, Guangtao Zeng, Jianbo Dai, Meng Luo, Han Weng, Yuhao Qing, Heming Cui, Zhijiang Guo, Jie M. Zhang,
- Abstract要約: Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。
Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
- 参考スコア(独自算出の注目度): 17.355845751737423
- License:
- Abstract: As the use of large language models (LLMs) for code generation becomes more prevalent in software development, it is critical to enhance both the efficiency and correctness of the generated code. Existing methods and models primarily focus on the correctness of LLM-generated code, ignoring efficiency. In this work, we present Effi-Code, an approach to enhancing code generation in LLMs that can improve both efficiency and correctness. We introduce a Self-Optimization process based on Overhead Profiling that leverages open-source LLMs to generate a high-quality dataset of correct and efficient code samples. This dataset is then used to fine-tune various LLMs. Our method involves the iterative refinement of generated code, guided by runtime performance metrics and correctness checks. Extensive experiments demonstrate that models fine-tuned on the Effi-Code show significant improvements in both code correctness and efficiency across task types. For example, the pass@1 of DeepSeek-Coder-6.7B-Instruct generated code increases from \textbf{43.3\%} to \textbf{76.8\%}, and the average execution time for the same correct tasks decreases by \textbf{30.5\%}. Effi-Code offers a scalable and generalizable approach to improving code generation in AI systems, with potential applications in software development, algorithm design, and computational problem-solving. The source code of Effi-Code was released in \url{https://github.com/huangd1999/Effi-Code}.
- Abstract(参考訳): コード生成における大規模言語モデル(LLM)の使用がソフトウェア開発においてより普及するにつれて、生成されたコードの効率性と正確性を高めることが重要である。
既存の方法やモデルは、LLM生成コードの正確さに重点を置いており、効率性を無視している。
本研究では,LLMにおけるコード生成を効率化する手法であるEffi-Codeを提案する。
オーバヘッドプロファイリング(Overhead Profiling)に基づく自己最適化プロセスを導入し,オープンソースのLCMを利用して,高精度かつ効率的なコードサンプルのデータセットを生成する。
このデータセットは、様々なLSMを微調整するために使用される。
提案手法は,実行時のパフォーマンス指標と正当性チェックによってガイドされる生成コードの反復的な改善を含む。
大規模な実験では、Effi-Codeで微調整されたモデルでは、タスクタイプ間のコードの正しさと効率の両方が大幅に改善されていることが示されている。
例えば、DeepSeek-Coder-6.7B-Instruct生成コードのpass@1は \textbf{43.3\%} から \textbf{76.8\%} に増加し、同じ正しいタスクの実行時間は \textbf{30.5\%} で減少する。
Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
Effi-Code のソースコードは \url{https://github.com/huangd 1999/Effi-Code} でリリースされた。
関連論文リスト
- ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? [12.862825053595934]
ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。
実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
論文 参考訳(メタデータ) (2024-07-19T05:47:40Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - On Evaluating the Efficiency of Source Code Generated by LLMs [31.8121544062256]
より効率的なコードは、LCM支援プログラミングで完了したプログラムやソフトウェアの性能と実行効率を向上させる。
まず,HumanEval と MBPP の2つのベンチマークで LLM が生成したコードの有効性を評価する。
そして,オンライン審査プラットフォームLeetCodeから,より難しい評価を行うために,一連のプログラミング問題を選択する。
論文 参考訳(メタデータ) (2024-04-09T05:59:39Z) - EffiBench: Benchmarking the Efficiency of Automatically Generated Code [16.19693502619949]
EffiBenchは1,000の効率クリティカルコーディング問題のあるベンチマークである。
それぞれの問題は、実行可能な人間記述の標準解とペアリングされる。
我々は42の大規模言語モデルによる効率的なコード生成能力を実証的に検証した。
論文 参考訳(メタデータ) (2024-02-03T05:24:39Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。