Fugu-MT 論文翻訳(概要): ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness?

論文の概要: ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness?

arxiv url: http://arxiv.org/abs/2407.14044v2
Date: Wed, 9 Oct 2024 22:20:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 19:38:31.874957
Title: ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness?
Title（参考訳）: ECCO: 機能的正確さを犠牲にすることなく、モデル生成コードの効率を向上できるか?
Authors: Siddhant Waghjale, Vishruth Veerendranath, Zora Zhiruo Wang, Daniel Fried,
Abstract要約: ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
参考スコア（独自算出の注目度）: 12.862825053595934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although large language models (LLMs) have been largely successful in generating functionally correct programs, conditioning models to produce efficient solutions while ensuring correctness remains a challenge. Further, unreliability in benchmarking code efficiency is a hurdle across varying hardware specifications for popular interpreted languages such as Python. In this paper, we present ECCO, a reproducible benchmark for evaluating program efficiency via two paradigms: natural language (NL) based code generation and history-based code editing. On ECCO, we adapt and thoroughly investigate the three most promising existing LLM-based approaches: in-context learning, iterative refinement with execution or NL feedback, and fine-tuning conditioned on execution and editing history. While most methods degrade functional correctness and moderately increase program efficiency, we find that adding execution information often helps maintain functional correctness, and NL feedback enhances more on efficiency. We release our benchmark to support future work on LLM-based generation of efficient code.
Abstract（参考訳）: 大規模言語モデル(LLM)は機能的に正しいプログラムを生成することに大きく成功しているが、効率的な解を生成するための条件付けモデルは依然として課題である。さらに、コードの効率をベンチマークする際の信頼性の欠如は、Pythonのような一般的なインタプリタ言語に対する様々なハードウェア仕様のハードルである。本稿では,自然言語(NL)に基づくコード生成と履歴に基づくコード編集という,プログラム効率を評価するための再現可能なベンチマークECCOを提案する。 ECCO上では、テキスト内学習、実行やNLフィードバックによる反復的改善、実行履歴と編集履歴の微調整という、最も有望な3つのLCMベースのアプローチを適応し、徹底的に検討する。ほとんどの手法は機能的正当性を低下させ、プログラム効率を適度に向上させるが、実行情報の追加は機能的正当性を維持するのに役立ち、NLフィードバックは効率を向上する。 LLMベースの効率的なコード生成に関する今後の作業を支援するため、我々のベンチマークをリリースする。

関連論文リスト

FasterPy: An LLM-based Code Execution Efficiency Optimization Framework [11.766544835516974]
コードはしばしばパフォーマンスのバグに悩まされる。従来のルールベースのメソッドは、特定のパフォーマンスバグに対するルールを手動で設計し、保守することに依存しています。我々は,Pythonコードの実行効率を最適化するために,大規模言語モデルを適用するフレームワークであるFasterPyを提案する。
論文参考訳（メタデータ） (2025-12-28T07:43:08Z)
Can LLMs Correct Themselves? A Benchmark of Self-Correction in LLMs [57.10533368622962]
大規模言語モデル(LLM)の自己補正は、推論性能を高める重要な要素として現れる。本研究では,自己補正戦略の有効性を評価するためのベンチマークであるCorrectBenchを紹介する。その結果,1) 自己補正手法は, 複雑な推論タスクにおいて, 精度を向上させることが可能であり, 2) 異なる自己補正戦略の混合により, 効率は低下するものの, さらなる改善がもたらされることが明らかとなった。
論文参考訳（メタデータ） (2025-10-17T02:40:19Z)
Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code [37.712780804235045]
EffiBench-X は LLM 生成コードの効率を測定するために設計された最初のマルチ言語ベンチマークである。 Python、C++、Java、JavaScript、Ruby、Golangをサポートする。競争力のあるプログラミングタスクと人間の専門的なソリューションをベースラインとして構成する。
論文参考訳（メタデータ） (2025-05-19T11:43:37Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
LLM4EFFI: Leveraging Large Language Models to Enhance Code Efficiency and Correctness [38.399282089600284]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。 ulineLarge ulineLanguage ulineModel for Code ulineEfficiencyは、LLMが効率性と正確性の両方のバランスをとるコードを生成することができる新しいフレームワークである。
論文参考訳（メタデータ） (2025-02-17T07:01:18Z)
COFFE: A Code Efficiency Benchmark for Code Generation [20.79578698298569]
LLM生成したコードソリューションの時間効率を評価するためのコード生成ベンチマークであるCOFFEを提案する。 COFFEには関数レベルとファイルレベルのコード生成にそれぞれ398と358の問題がある。時間評価指標として,CPU命令数に基づくefficienct@kを提案する。
論文参考訳（メタデータ） (2025-02-05T02:08:51Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Effi-Code: Unleashing Code Efficiency in Language Models [17.355845751737423]
Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。 Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
論文参考訳（メタデータ） (2024-10-14T07:05:51Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
Evaluating Language Models for Efficient Code Generation [13.175840119811]
大規模言語モデル(LLM)を確実に評価するための微分性能評価(DPE)を導入する。 DPEは、効率を要求するプログラミングタスクに焦点を当て、パフォーマンス評価のための洞察に富んだ複合メトリクスを確立する。概念実証として、私たちはDPEを使用して、121のコードタスクのパフォーマンスを満足させるベンチマークであるEvalPerfを作成します。
論文参考訳（メタデータ） (2024-08-12T18:59:13Z)
How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文参考訳（メタデータ） (2024-06-10T04:19:20Z)
On Evaluating the Efficiency of Source Code Generated by LLMs [31.8121544062256]
より効率的なコードは、LCM支援プログラミングで完了したプログラムやソフトウェアの性能と実行効率を向上させる。まず,HumanEval と MBPP の2つのベンチマークで LLM が生成したコードの有効性を評価する。そして,オンライン審査プラットフォームLeetCodeから,より難しい評価を行うために,一連のプログラミング問題を選択する。
論文参考訳（メタデータ） (2024-04-09T05:59:39Z)
Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文参考訳（メタデータ） (2024-02-20T13:56:38Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。