論文の概要: NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional
Correctness
- arxiv url: http://arxiv.org/abs/2401.15963v2
- Date: Fri, 2 Feb 2024 18:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:43:01.925958
- Title: NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional
Correctness
- Title(参考訳): NoFunEval: 機能的正確性以外の要件について,コード LM がどう対処するか
- Authors: Manav Singhal, Tushar Aggarwal, Abhijeet Awasthi, Nagarajan Natarajan,
Aditya Kanade
- Abstract要約: 既存のコード言語モデルの評価ベンチマーク(コードLM)は、LMが機能的に正しいコードを生成することができるかどうかにのみ焦点を絞っている。
非機能要件と非機能要件の両方に対する単純な分類インスタンスに基づいて、コードLMを評価するため、新しいベンチマークNoFunEvalを提案する。
- 参考スコア(独自算出の注目度): 11.26732084588476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing evaluation benchmarks of language models of code (code LMs) focus
almost exclusively on whether the LMs can generate functionally-correct code.
In real-world software engineering, developers think beyond functional
correctness. They have requirements on "how" a functionality should be
implemented to meet overall system design objectives like efficiency, security,
and maintainability. They would also trust the code LMs more if the LMs
demonstrate robust understanding of requirements and code semantics.
We propose a new benchmark NoFunEval to evaluate code LMs on non-functional
requirements and simple classification instances for both functional and
non-functional requirements. We propose a prompting method, Coding Concepts
(CoCo), as a way for a developer to communicate the domain knowledge to the
LMs. We conduct an extensive evaluation of twenty-two code LMs. Our finding is
that they generally falter when tested on our benchmark, hinting at fundamental
blindspots in their training setups. Surprisingly, even the classification
accuracy on functional-correctness instances derived from the popular HumanEval
benchmark is low, calling in question the depth of their comprehension and the
source of their success in generating functionally-correct code in the first
place. We will release our benchmark and evaluation scripts publicly at
https://aka.ms/NoFunEval.
- Abstract(参考訳): 既存のコード言語モデルの評価ベンチマーク(コードLM)は、LMが機能的に正しいコードを生成することができるかどうかにのみ焦点を絞っている。
現実世界のソフトウェアエンジニアリングでは、開発者は機能的正確性を超えて考える。
効率性、セキュリティ、保守性といったシステム設計全体の目標を満たすために、機能を実装するべき"方法"に関する要件がある。
LMが要求とコードセマンティクスの堅牢な理解を示すなら、彼らはLMをもっと信頼するだろう。
非機能要件と非機能要件の両方に対する単純な分類インスタンスのコードLMを評価するために,新しいベンチマークNoFunEvalを提案する。
我々は、開発者がドメイン知識をlmsに伝達する方法として、プロンプト手法であるコーディング概念(coco)を提案する。
我々は22コードlmsを広範囲に評価する。
私たちの発見では、ベンチマークでテストすると一般的にフェールし、トレーニングセットアップの基本的な盲点をほのめかしています。
驚いたことに、一般的なhumanevalベンチマークから派生した機能的訂正インスタンスの分類精度は低く、その理解の深さと、そもそも機能的修正コードの生成に成功している原因を問うものだ。
私たちはベンチマークと評価スクリプトをhttps://aka.ms/NoFunEval.comで公開します。
関連論文リスト
- How Far Have We Gone in Stripped Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - Evaluating Large Language Models with Runtime Behavior of Program Execution [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,コードの推論能力とLLMの整合性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Mercury: An Efficiency Benchmark for LLM Code Synthesis [41.59643329735528]
Mercuryは、Large Language Modelsコード合成タスクのコード効率を評価するために指定された最初のベンチマークである。
既存のベンチマークとは異なり、Mercuryは、正常化されたコード効率を測定するために、Beyond@Kという新しいメトリクスを統合している。
その結果,LLMは機能的に正しいコードを生成する能力を示すが,その効率性には大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Chain of Code: Reasoning with a Language Model-Augmented Code Emulator [119.0018170558366]
言語モデル(LM)はコード記述を活用して思考の連鎖推論を改善する。
我々は、LMコード駆動推論を改善するシンプルな、そして驚くほど効果的な拡張であるChain of Code (CoC)を提案する。
CoCは、大小のモデルと同様の規模でスケールし、LMが「コードを考える」ことで正しく答えられるような推論の問題の範囲を広げる。
論文 参考訳(メタデータ) (2023-12-07T17:51:43Z) - Generate and Pray: Using SALLMS to Evaluate the Security of LLM
Generated Code [0.7451457983372032]
大規模言語モデルによって生成されたコードが正しいだけでなく、脆弱性もないことを保証することが重要です。
LLM(Large Language Models)を評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。
生成されたコードのセキュリティを評価することに焦点を当てたベンチマークが明らかに欠落している。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - CodeScore: Evaluating Code Generation by Learning Code Execution [34.08307174529496]
本稿では,3つの入力フォーマット上で生成されたコードの関数的正当性を推定する大規模言語モデル(LLM)ベースのCEMであるCodeScoreを提案する。
CodeScoreは、他のCEMと比較して58.87%の相関性を向上し、最先端のパフォーマンスを達成し、3つの入力フォーマットを効果的に扱う。
論文 参考訳(メタデータ) (2023-01-22T02:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。