Fugu-MT 論文翻訳(概要): Beyond Code Generation: Assessing Code LLM Maturity with Postconditions

論文の概要: Beyond Code Generation: Assessing Code LLM Maturity with Postconditions

arxiv url: http://arxiv.org/abs/2407.14118v1
Date: Fri, 19 Jul 2024 08:34:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 18:13:50.066980
Title: Beyond Code Generation: Assessing Code LLM Maturity with Postconditions
Title（参考訳）: コード生成を超えて: コードLLM成熟度をポストコンディションで評価する
Authors: Fusen He, Juan Zhai, Minxue Pan,
Abstract要約: 本稿では,ポストコンディショニング問題に基づく大規模言語モデルの成熟度モデルを提案する。 EvalPlusデータセットを条件付きテストベンチマークに拡張し、いくつかのオープンソースモデルを評価する。
参考スコア（独自算出の注目度）: 9.521621889147362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most existing code Large Language Model (LLM) benchmarks, e.g., EvalPlus, focus on the code generation tasks. Namely, they contain a natural language description of a problem and ask the LLM to write code to solve the problem. We argue that they do not capture all capabilities needed to assess the quality of a code LLM. In this paper, we propose a code LLM maturity model, based on the postcondition generation problem, to access a more complete set of code LLM capabilities. We choose the postcondition generation problem as it requires the code LLM to understand the code including semantics, natural language, and also have the capability to generate unambiguous postconditions in programming languages (i.e., the generation capablity). Moreover, postconditions have various types, requiring different levels of these capabilities, making it suitable to evaluate the maturity of the code LLM. Based on our designed maturity model, we augment the EvalPlus dataset to a postcondition testing benchmark, and evaluated several open-sourced models. Our results highlight the necessary improvements needed for better LLMs for code. Code: https://github.com/MatureModel/PostcondGen
Abstract（参考訳）: ほとんどの既存のコードLarge Language Model (LLM)ベンチマーク、例えばEvalPlusは、コード生成タスクに焦点を当てている。すなわち、問題を自然言語で記述し、LLMにその問題を解決するためにコードを書くように要求する。コードLLMの品質を評価するのに必要なすべての機能をキャプチャするわけではない、と私たちは主張する。本稿では,ポストコンディション生成問題に基づくコードLLM成熟度モデルを提案し,より完全なコードLLM機能を実現する。我々は、意味論、自然言語を含むコードを理解するのに必要なコードLLMと、プログラミング言語(つまり、生成能力)であいまいな後条件を生成する能力を持つため、後条件生成問題を選択する。さらに、ポストコンディションには様々なタイプがあり、これらの能力のレベルが異なるため、コードLLMの成熟度を評価するのに適している。設計した成熟度モデルに基づいて,EvalPlusデータセットをポストコンディションテストベンチマークに拡張し,複数のオープンソースモデルを評価した。我々の結果は、コードのためのより良いLLMに必要な改善点を浮き彫りにした。コード:https://github.com/MatureModel/PostcondGen

関連論文リスト

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models [1.2234742322758418]
大規模言語モデル(LLM)は、例えばコード補完やコード生成を通じてソフトウェア開発タスクをサポートするために使用できる。テキスト仕様からDSLコードを生成するLLMの機能を評価するための汎用フレームワークを提案する。このフレームワークは特定の種類のDSL、制約言語に適用されます。
論文参考訳（メタデータ） (2026-03-05T15:23:02Z)
CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文参考訳（メタデータ） (2025-12-22T14:27:17Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Automatic Generation of Benchmarks and Reliable LLM Judgment for Code Tasks [0.8274693573069442]
この研究は、自動生成されたベンチマークを利用して、LaaJの実装を生成および評価する方法論を導入する。ベンチマークは、LaaJの開発と検証と、LaaJを使用してLLMコード関連ソリューションの検証とテストの両方に使用される。私たちのアプローチは、高品質なコードタスクソリューションの作成を可能にします。
論文参考訳（メタデータ） (2024-10-28T14:34:36Z)
Exploring the Capabilities of LLMs for Code Change Related Tasks [14.261870410238643]
大規模言語モデル(LLM)は、コードに関連するタスクにおいてその効果を示す。 LLMは2つのコードバージョンの違いよりも、一般的なコード構文とセマンティクスに重点を置いている。我々は,3つのコード変更関連タスクに対して,テキストグレーター1BパラメータLPMを用いた実証的研究を行った。
論文参考訳（メタデータ） (2024-07-03T05:49:18Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文参考訳（メタデータ） (2024-05-31T22:06:18Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文参考訳（メタデータ） (2024-02-15T02:24:46Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Large Language Models Should Ask Clarifying Questions to Increase Confidence in Generated Code [0.7252027234425334]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。本稿では,LLM生成コミュニケータを用いて,問題記述や生成されたコードに対する曖昧さや信頼性の低い問題を識別する通信中心プロセスを提案する。
論文参考訳（メタデータ） (2023-08-25T17:33:05Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。