論文の概要: A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models
- arxiv url: http://arxiv.org/abs/2603.05278v1
- Date: Thu, 05 Mar 2026 15:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.294889
- Title: A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models
- Title(参考訳): 大規模言語モデルを用いた制約ドメイン固有言語のコード生成能力評価フレームワーク
- Authors: David Delgado, Lola Burgueño, Robert Clarisó,
- Abstract要約: 大規模言語モデル(LLM)は、例えばコード補完やコード生成を通じてソフトウェア開発タスクをサポートするために使用できる。
テキスト仕様からDSLコードを生成するLLMの機能を評価するための汎用フレームワークを提案する。
このフレームワークは特定の種類のDSL、制約言語に適用されます。
- 参考スコア(独自算出の注目度): 1.2234742322758418
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) can be used to support software development tasks, e.g., through code completion or code generation. However, their effectiveness drops significantly when considering less popular programming languages such as domain-specific languages (DSLs). In this paper, we propose a generic framework for evaluating the capabilities of LLMs generating DSL code from textual specifications. The generated code is assessed from the perspectives of well-formedness and correctness. This framework is applied to a particular type of DSL, constraint languages, focusing our experiments on OCL and Alloy and comparing their results to those achieved for Python, a popular general-purpose programming language. Experimental results show that, in general, LLMs have better performance for Python than for OCL and Alloy. LLMs with smaller context windows such as open-source LLMs may be unable to generate constraint-related code, as this requires managing both the constraint and the domain model where it is defined. Moreover, some improvements to the code generation process such as code repair (asking an LLM to fix incorrect code) or multiple attempts (generating several candidates for each coding task) can improve the quality of the generated code. Meanwhile, other decisions like the choice of a prompt template have less impact. All these dimensions can be systematically analyzed using our evaluation framework, making it possible to decide the most effective way to set up code generation for a particular type of task.
- Abstract(参考訳): 大規模言語モデル(LLM)は、例えば、コード補完やコード生成を通じて、ソフトウェア開発タスクをサポートするために使用できる。
しかし、ドメイン固有言語(DSL)のようなあまり一般的でないプログラミング言語を考えると、その効果は著しく低下します。
本稿では,テキスト仕様から DSL コードを生成する LLM の機能を評価するための汎用フレームワークを提案する。
生成されたコードは、正確さと正確さの観点から評価されます。
このフレームワークは、特定の種類のDSL、制約言語に適用され、OCLとアロイの実験に集中し、それらの結果が一般的な汎用プログラミング言語であるPythonで達成されたものと比較されます。
実験の結果, LLM は OCL や Alloy よりもPython に優れていた。
オープンソース LLM のようなより小さなコンテキストウィンドウを持つ LLM は制約関連のコードを生成することができないかもしれない。
さらに、コード修正(LLMに間違ったコードを修正するよう求める)や複数の試行(各コーディングタスクの候補を生成する)などのコード生成プロセスの改善により、生成されたコードの品質が向上する。
一方、プロンプトテンプレートの選択のような他の決定は影響を受けない。
これらすべての次元は、評価フレームワークを使用して体系的に分析することができ、特定のタスクに対してコード生成を最も効果的に設定する方法を決定することができます。
関連論文リスト
- Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML [3.5515013986822073]
本研究は,Aのレベル管理部門と共同で実施した事例研究である。
閉鎖的,高度に専門化されたソフトウェア環境において,機能的,保守性のあるコードを生成する上でのLLMの性能について検討する。
その結果、プロンプト技術とモデルサイズが出力品質に重大な影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-15T19:39:26Z) - The Fools are Certain; the Wise are Doubtful: Exploring LLM Confidence in Code Completion [4.215010577170175]
コードパープレキシティの測定により,コード生成時のLLM(Large Language Models)の信頼性を評価する。
強い型付け言語は動的型付け言語よりも難易度が低いことがわかった。
Perlは難易度が普遍的に高いが、Javaは低いように見える。
論文 参考訳(メタデータ) (2025-08-22T06:51:13Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Can LLMs Replace Humans During Code Chunking? [2.4056836012742]
大規模言語モデル(LLM)は、特にコード理解と生成に関わるタスクにおいて、コンピュータ科学において重要なツールとなっている。
本稿では,ALC および MUMPS で記述されたレガシ行政コードの近代化における LLM の適用について検討する。
論文 参考訳(メタデータ) (2025-06-24T13:02:35Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain Settings [32.72039589832989]
大規模言語モデル(LLM)はコード生成に革命をもたらし、プログラミングを驚くほどの効率で自動化した。
これらの進歩はプログラミングのスキル、倫理、評価の整合性に挑戦し、説明責任と標準を維持するのに欠かせないLCM生成コードを検出する。
複数のプログラミング言語、コードジェネレータ、ドメインにまたがる人間とLLMで書かれたコードを区別できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T21:41:37Z) - Effective LLM-Driven Code Generation with Pythoness [0.0]
Pythonessは、大きな言語モデル(LLM)を使用したコード生成のための組み込みドメイン固有言語である。
Pythonessでは、関数やクラス、プログラム全体を記述する際に、開発者は振る舞い仕様のレベルで動作します。
Pythonessは、テストとコード生成の組み合わせをうまく利用して、仕様のみよりも高品質なコードを生成することができることを示す。
論文 参考訳(メタデータ) (2025-01-03T23:14:46Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。