論文の概要: Evaluating Language Models for Efficient Code Generation
- arxiv url: http://arxiv.org/abs/2408.06450v1
- Date: Mon, 12 Aug 2024 18:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 19:27:43.759053
- Title: Evaluating Language Models for Efficient Code Generation
- Title(参考訳): 効率的なコード生成のための言語モデルの評価
- Authors: Jiawei Liu, Songrun Xie, Junhao Wang, Yuxiang Wei, Yifeng Ding, Lingming Zhang,
- Abstract要約: 大規模言語モデル(LLM)を確実に評価するための微分性能評価(DPE)を導入する。
DPEは、効率を要求するプログラミングタスクに焦点を当て、パフォーマンス評価のための洞察に富んだ複合メトリクスを確立する。
概念実証として、私たちはDPEを使用して、121のコードタスクのパフォーマンスを満足させるベンチマークであるEvalPerfを作成します。
- 参考スコア(独自算出の注目度): 13.175840119811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Differential Performance Evaluation (DPE), a framework designed to reliably evaluate Large Language Models (LLMs) for efficient code generation. Traditional coding benchmarks often fail to provide reliable insights into code efficiency, due to their reliance on simplistic test inputs and the absence of effective compound metrics. DPE addresses these issues by focusing on efficiency-demanding programming tasks and establishing an insightful compound metric for performance evaluation. DPE operates in two phases: To curate efficiency datasets, it selects efficiency-demanding tasks from existing coding benchmarks and generates computationally expensive inputs to stress the efficiency of LLM solutions. To assess the code efficiency, DPE profiles the new solution and compares it globally against a set of reference solutions that exhibit distinct efficiency levels, where the matched level defines its efficiency score. As a proof of concept, we use DPE to create EvalPerf, a benchmark with 121 performance-challenging coding tasks. Our comprehensive evaluation draws interesting findings on the efficiency impact of model sizes, instruction tuning, and prompting. For example, while the scaling law fails to account for code efficiency, general instruction tuning benefits both code correctness and efficiency. We also evaluate the evaluation by examining the effectiveness of DPE, showing that EvalPerf is reliable and convenient to use even across platforms.
- Abstract(参考訳): 本稿では,高効率コード生成のための大規模言語モデル(LLM)を確実に評価するフレームワークである差分性能評価(DPE)を紹介する。
従来のコーディングベンチマークは、単純なテストインプットへの依存と効果的な複合メトリクスの欠如のため、コードの効率に関する信頼できる洞察を得られないことが多い。
DPEはこれらの問題に対処し、効率性の要求するプログラミングタスクに焦点をあて、パフォーマンス評価のための洞察に富んだ複合指標を確立する。
DPEは、効率データセットをキュレートするために、既存のコーディングベンチマークから効率要求タスクを選択し、計算コストの高い入力を生成し、LLMソリューションの効率を強調する。
コード効率を評価するために、DPEは新しいソリューションをプロファイルし、異なる効率レベルを示す参照ソリューションのセットと比較する。
概念実証として、私たちはDPEを使用して、121のコードタスクのパフォーマンスを満足させるベンチマークであるEvalPerfを作成します。
包括的評価は、モデルサイズ、命令チューニング、プロンプトの効率への影響について興味深い知見を導き出す。
例えば、スケーリング法則はコードの効率を考慮できないが、一般的なインストラクションチューニングはコードの正確性と効率の両方に恩恵がある。
また,DPEの有効性を検討した結果,EvalPerfはプラットフォーム間でも信頼性が高く,便利であることがわかった。
関連論文リスト
- ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? [12.862825053595934]
ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。
実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
論文 参考訳(メタデータ) (2024-07-19T05:47:40Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。
LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。
各種コードライブラリの推論性能の粗大な解析を行う。
論文 参考訳(メタデータ) (2024-04-17T15:57:50Z) - On Evaluating the Efficiency of Source Code Generated by LLMs [31.8121544062256]
より効率的なコードは、LCM支援プログラミングで完了したプログラムやソフトウェアの性能と実行効率を向上させる。
まず,HumanEval と MBPP の2つのベンチマークで LLM が生成したコードの有効性を評価する。
そして,オンライン審査プラットフォームLeetCodeから,より難しい評価を行うために,一連のプログラミング問題を選択する。
論文 参考訳(メタデータ) (2024-04-09T05:59:39Z) - Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。
1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。
そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation [82.85015548989223]
Pentathlonは、モデル効率の総合的で現実的な評価のためのベンチマークである。
Pentathlonは、モデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。
レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。
論文 参考訳(メタデータ) (2023-07-19T01:05:33Z) - EffEval: A Comprehensive Evaluation of Efficiency for MT Evaluation
Metrics [21.72262031588122]
MT評価指標の総合評価を行う。
3つのMTデータセットで6つの基準フリーおよび基準ベースメトリクスを評価し,16個の軽量トランスフォーマーについて検討した。
論文 参考訳(メタデータ) (2022-09-20T10:12:07Z) - Building an Efficiency Pipeline: Commutativity and Cumulativeness of
Efficiency Operators for Transformers [68.55472265775514]
モデルに適用した演算子として効率性を考える。
本稿では,このアイデアの妥当性と,効率作用素の可換性と累積性について検討する。
論文 参考訳(メタデータ) (2022-07-31T18:01:06Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。