論文の概要: Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML
- arxiv url: http://arxiv.org/abs/2509.12395v1
- Date: Mon, 15 Sep 2025 19:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.741053
- Title: Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML
- Title(参考訳): 産業環境における機能的・保守的コードのための大規模言語モデルの評価:ASMLを事例として
- Authors: Yash Mundhra, Max Valk, Maliheh Izadi,
- Abstract要約: 本研究は,Aのレベル管理部門と共同で実施した事例研究である。
閉鎖的,高度に専門化されたソフトウェア環境において,機能的,保守性のあるコードを生成する上でのLLMの性能について検討する。
その結果、プロンプト技術とモデルサイズが出力品質に重大な影響を与えることが明らかとなった。
- 参考スコア(独自算出の注目度): 3.5515013986822073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have shown impressive performance in various domains, including code generation across diverse open-source domains. However, their applicability in proprietary industrial settings, where domain-specific constraints and code interdependencies are prevalent, remains largely unexplored. We present a case study conducted in collaboration with the leveling department at ASML to investigate the performance of LLMs in generating functional, maintainable code within a closed, highly specialized software environment. We developed an evaluation framework tailored to ASML's proprietary codebase and introduced a new benchmark. Additionally, we proposed a new evaluation metric, build@k, to assess whether LLM-generated code successfully compiles and integrates within real industrial repositories. We investigate various prompting techniques, compare the performance of generic and code-specific LLMs, and examine the impact of model size on code generation capabilities, using both match-based and execution-based metrics. The findings reveal that prompting techniques and model size have a significant impact on output quality, with few-shot and chain-of-thought prompting yielding the highest build success rates. The difference in performance between the code-specific LLMs and generic LLMs was less pronounced and varied substantially across different model families.
- Abstract(参考訳): 大規模な言語モデルは、さまざまなオープンソースドメインにわたるコード生成など、さまざまな領域で顕著なパフォーマンスを示している。
しかし、ドメイン固有の制約やコード相互依存が一般的であるプロプライエタリな産業環境での適用性は、いまだほとんど調査されていない。
本稿では,ASMLのレベリング部門と共同で,閉鎖的かつ高度に専門化されたソフトウェア環境において,機能的で保守可能なコードを生成する上でのLLMの性能を調査するケーススタディを提案する。
我々はASMLの独自コードベースに適した評価フレームワークを開発し、新しいベンチマークを導入した。
さらに,LLM生成したコードが実産業リポジトリ内で正常にコンパイルされ,統合されるかどうかを評価するため,新しい評価基準である build@k を提案した。
本稿では,様々なプロンプト技術の検討,ジェネリックおよびコード固有のLCMの性能の比較,およびマッチングベースと実行ベースの両方のメトリクスを用いて,モデルサイズがコード生成能力に与える影響について検討する。
その結果、プロンプト技術とモデルサイズがアウトプットの品質に重大な影響を与えていることが判明した。
コード固有 LLM とジェネリック LLM のパフォーマンスの違いは、異なるモデルファミリ間で顕著に異なる。
関連論文リスト
- On LLM-Assisted Generation of Smart Contracts from Business Processes [0.08192907805418582]
大規模言語モデル(LLM)は、ソフトウェアの生成方法の現実を変えました。
本稿では、ビジネスプロセス記述からスマートコントラクトコードを生成するためのLCMの使用について探索的研究を行う。
以上の結果から,LLMの性能はスマートコントラクト開発に必要な信頼性に劣ることがわかった。
論文 参考訳(メタデータ) (2025-07-30T20:39:45Z) - Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks [4.448709087838503]
小型言語モデル(SLM)は、大規模言語モデル(LLM)の軽量で費用対効果の高い代替手段を提供する。
本研究では,5つのコード関連ベンチマークにおいて,0.4Bから10Bまでの20個のオープンソースSLMの総合的評価を行った。
論文 参考訳(メタデータ) (2025-07-03T20:32:36Z) - SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。
ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文 参考訳(メタデータ) (2025-05-21T04:59:44Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。