Fugu-MT 論文翻訳(概要): Effi-Code: Unleashing Code Efficiency in Language Models

論文の概要: Effi-Code: Unleashing Code Efficiency in Language Models

arxiv url: http://arxiv.org/abs/2410.10209v2
Date: Sat, 19 Oct 2024 12:39:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 02:24:44.266570
Title: Effi-Code: Unleashing Code Efficiency in Language Models
Title（参考訳）: Effi-Code: 言語モデルにおけるコード効率の解放
Authors: Dong Huang, Guangtao Zeng, Jianbo Dai, Meng Luo, Han Weng, Yuhao Qing, Heming Cui, Zhijiang Guo, Jie M. Zhang,
Abstract要約: Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。 Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
参考スコア（独自算出の注目度）: 17.355845751737423
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the use of large language models (LLMs) for code generation becomes more prevalent in software development, it is critical to enhance both the efficiency and correctness of the generated code. Existing methods and models primarily focus on the correctness of LLM-generated code, ignoring efficiency. In this work, we present Effi-Code, an approach to enhancing code generation in LLMs that can improve both efficiency and correctness. We introduce a Self-Optimization process based on Overhead Profiling that leverages open-source LLMs to generate a high-quality dataset of correct and efficient code samples. This dataset is then used to fine-tune various LLMs. Our method involves the iterative refinement of generated code, guided by runtime performance metrics and correctness checks. Extensive experiments demonstrate that models fine-tuned on the Effi-Code show significant improvements in both code correctness and efficiency across task types. For example, the pass@1 of DeepSeek-Coder-6.7B-Instruct generated code increases from \textbf{43.3\%} to \textbf{76.8\%}, and the average execution time for the same correct tasks decreases by \textbf{30.5\%}. Effi-Code offers a scalable and generalizable approach to improving code generation in AI systems, with potential applications in software development, algorithm design, and computational problem-solving. The source code of Effi-Code was released in \url{https://github.com/huangd1999/Effi-Code}.
Abstract（参考訳）: コード生成における大規模言語モデル(LLM)の使用がソフトウェア開発においてより普及するにつれて、生成されたコードの効率性と正確性を高めることが重要である。既存の方法やモデルは、LLM生成コードの正確さに重点を置いており、効率性を無視している。本研究では,LLMにおけるコード生成を効率化する手法であるEffi-Codeを提案する。オーバヘッドプロファイリング(Overhead Profiling)に基づく自己最適化プロセスを導入し,オープンソースのLCMを利用して,高精度かつ効率的なコードサンプルのデータセットを生成する。このデータセットは、様々なLSMを微調整するために使用される。提案手法は,実行時のパフォーマンス指標と正当性チェックによってガイドされる生成コードの反復的な改善を含む。大規模な実験では、Effi-Codeで微調整されたモデルでは、タスクタイプ間のコードの正しさと効率の両方が大幅に改善されていることが示されている。例えば、DeepSeek-Coder-6.7B-Instruct生成コードのpass@1は \textbf{43.3\%} から \textbf{76.8\%} に増加し、同じ正しいタスクの実行時間は \textbf{30.5\%} で減少する。 Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。 Effi-Code のソースコードは \url{https://github.com/huangd 1999/Effi-Code} でリリースされた。

関連論文リスト

LLM4EFFI: Leveraging Large Language Models to Enhance Code Efficiency and Correctness [38.399282089600284]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。 ulineLarge ulineLanguage ulineModel for Code ulineEfficiencyは、LLMが効率性と正確性の両方のバランスをとるコードを生成することができる新しいフレームワークである。
論文参考訳（メタデータ） (2025-02-17T07:01:18Z)
COFFE: A Code Efficiency Benchmark for Code Generation [20.79578698298569]
LLM生成したコードソリューションの時間効率を評価するためのコード生成ベンチマークであるCOFFEを提案する。 COFFEには関数レベルとファイルレベルのコード生成にそれぞれ398と358の問題がある。時間評価指標として,CPU命令数に基づくefficienct@kを提案する。
論文参考訳（メタデータ） (2025-02-05T02:08:51Z)
Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement [47.89758553708932]
textbfThinkCoderは、徹底的な探索と最適な精錬を組み合わせたフレームワークです。探索フェーズは、潜在的な解を探すことによって解空間を多様化し、続いて精度を高める精製フェーズが続く。テスト時間計算のオーバーヘッドを最小化するために、Reinforced Self-Training (ReST) を用いた優先駆動最適化を導入する。
論文参考訳（メタデータ） (2024-12-30T07:02:15Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Rethinking Code Refinement: Learning to Judge Code Efficiency [60.04718679054704]
大規模言語モデル(LLM)は、コードを理解して生成する素晴らしい能力を示しています。本稿では,2つの異なる符号間の効率を判定するために訓練されたコード言語モデルに基づく新しい手法を提案する。提案手法は,複数の改良ステップで複数のプログラミング言語に対して検証し,より効率的で少ないバージョンのコードの識別を効果的に行うことができることを示した。
論文参考訳（メタデータ） (2024-10-29T06:17:37Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? [12.862825053595934]
ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
論文参考訳（メタデータ） (2024-07-19T05:47:40Z)
Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency [15.593172556501704]
Code-Optimiseは、正確性(パス、フェール)とランタイムの両方を学習信号として組み込んだフレームワークです。私たちのフレームワークは軽量で堅牢で、オーバーフィッティングを減らすためのソリューションを動的に選択します。副生成物として、生成した溶液の平均長はMBPPで48%、HumanEvalで23%減少する。
論文参考訳（メタデータ） (2024-06-18T11:05:37Z)
How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文参考訳（メタデータ） (2024-06-10T04:19:20Z)
EffiLearner: Enhancing Efficiency of Generated Code via Self-Optimization [16.238980494717303]
大規模言語モデル(LLM)は、コード生成の著しい進歩を示しているが、生成されたコードは、しばしば非効率に悩まされる。実行オーバーヘッドプロファイルを利用した自己最適化フレームワークである textbfEffiLearner を提案する。 EffiLearnerはまずLLMを使ってコードを生成し、その後ローカルに実行し、実行時間とメモリ使用率プロファイルをキャプチャする。
論文参考訳（メタデータ） (2024-05-24T03:48:15Z)
EffiBench: Benchmarking the Efficiency of Automatically Generated Code [16.19693502619949]
EffiBenchは1,000の効率クリティカルコーディング問題のあるベンチマークである。それぞれの問題は、実行可能な人間記述の標準解とペアリングされる。我々は42の大規模言語モデルによる効率的なコード生成能力を実証的に検証した。
論文参考訳（メタデータ） (2024-02-03T05:24:39Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文参考訳（メタデータ） (2023-06-26T17:59:24Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Learning to Improve Code Efficiency [27.768476489523163]
Google Code Jamコンペティションから、大規模な競合プログラミングデータセットを分析します。効率的なコードは確かに稀であり、中央値ランタイムと90分の1のソリューションとでは2倍の違いがある。我々は、機械学習を用いてヒントの形で規範的なフィードバックを自動的に提供し、プログラマが高性能なコードを書くよう誘導することを提案する。
論文参考訳（メタデータ） (2022-08-09T01:28:30Z)
Highly Parallel Autoregressive Entity Linking with Discriminative Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。我々のモデルは以前の生成法より70倍高速で精度が高い。
論文参考訳（メタデータ） (2021-09-08T17:28:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。