論文の概要: Leveraging LLMs for Multi-File DSL Code Generation: An Industrial Case Study
- arxiv url: http://arxiv.org/abs/2604.24678v1
- Date: Mon, 27 Apr 2026 16:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.175741
- Title: Leveraging LLMs for Multi-File DSL Code Generation: An Industrial Case Study
- Title(参考訳): マルチファイルDSLコード生成のためのLLMの活用:産業ケーススタディ
- Authors: Sivajeet Chand, Kevin Nguyen, Peter Kuntz, Alexander Pretschner,
- Abstract要約: 大規模言語モデル(LLM)は汎用コード生成に強く貢献するが、エンタープライズドメイン特化言語(s)への適用性は未定である。
本稿では,コード指向のLLMを用いて,Xtext ベースの DSL 用のプロジェクトルート DSL アーチファクトの生成と修正を行う,BMW の産業ケーススタディについて報告する。
構造化されたパス応答生成をリポジトリスケールでエンコードし、ファイル間の依存関係を学習します。
- 参考スコア(独自算出の注目度): 39.936784974007644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) perform strongly on general-purpose code generation, yet their applicability to enterprise domain-specific languages (DSLs) remains underexplored, especially for repository-scale change generation spanning multiple files and folder structures from a single natural-language (NL) instruction. We report an industrial case study at BMW that adapts code-oriented LLMs to generate and modify project-root DSL artifacts for an Xtext-based DSL that drives downstream Java/TypeScript code generation. We develop an end-to-end pipeline for dataset construction, multi-file task representation, model adaptation, and evaluation. We encode DSL folder hierarchies as structured, path-preserving JSON, allowing single-response generation at repository scale and learning cross-file dependencies. We evaluate two instruction-tuned code LLMs (Qwen2.5-Coder and DeepSeek-Coder, 7B) under three configurations: baseline prompting, one-shot in-context learning, and parameter-efficient fine-tuning (QLoRA). Beyond standard similarity metrics, we introduce task-specific measures that assess edit correctness and repository structural fidelity. Fine-tuning yields the most significant gains across models and metrics, achieving high exact-match accuracy, substantial edit similarity, and structural fidelity of 1.00 on our held-out set for multi-file outputs. At the same time, one-shot in-context learning provides smaller but consistent improvements over baseline prompting. We further validate practical utility via an expert developer survey and an execution-based check using the existing code generator.
- Abstract(参考訳): 大規模言語モデル(LLM)は汎用コード生成に強く依存するが、エンタープライズドメイン特化言語(DSL)への適用性は未定であり、特に1つの自然言語(NL)命令から複数のファイルやフォルダ構造にまたがるリポジトリスケールの変更生成について検討されている。
我々は,Java/TypeScriptの下流コード生成を駆動する Xtext ベースの DSL に対して,コード指向 LLM を用いてプロジェクトルート DSL アーチファクトの生成と修正を行う産業ケーススタディを報告した。
本研究では,データセット構築,複数ファイルタスク表現,モデル適応,評価のためのエンドツーエンドパイプラインを開発する。
DSLフォルダ階層を構造化されたパス保存JSONとしてエンコードし、リポジトリスケールでの単一レスポンス生成とファイル間の依存関係の学習を可能にします。
我々は,ベースラインプロンプト,ワンショットインコンテキスト学習,パラメータ効率のよい微調整(QLoRA)の3つの構成で,命令調整型LLM(Qwen2.5-Coder,DeepSeek-Coder,7B)を評価した。
標準的な類似度指標以外にも,修正の正しさとリポジトリの構造的忠実度を評価するタスク固有の尺度を導入する。
ファインチューニングは、モデルとメトリクス間で最も重要な利得をもたらし、高い精度の正確なマッチング精度、相当な編集類似性、そしてマルチファイル出力のためのホールドアウトセットにおける1.00の構造的忠実度を実現します。
同時に、ワンショットのインコンテキスト学習は、ベースラインプロンプトよりも小さいが一貫した改善を提供する。
さらに,既存のコードジェネレータを用いて,専門家による開発者調査と実行ベースのチェックを通じて実用性を検証する。
関連論文リスト
- RealBench: A Repo-Level Code Generation Benchmark Aligned with Real-World Software Development Practices [54.956760584923295]
コード生成にLLM(Large Language Models)を使用することで、研究者は大幅に進歩した。
しかしながら、開発者は一般的に、生の自然言語記述ではなく、構造化された設計や仕様に基づいたコードを書く。
既存のベンチマークと実際の産業開発プラクティスのギャップは、現在のベンチマークスコアが、どれだけのコード生成が開発タスクの自動化に役立つかを正確に反映していないことを意味する。
論文 参考訳(メタデータ) (2026-04-24T15:35:54Z) - Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering [4.120344028676837]
大規模言語モデル(LLM)は、質問応答(QA)を含む、ソフトウェアエンジニアリングタスク全体で印象的な機能を示している。
StackRepoQAは、134のオープンソースJavaプロジェクト間で、1,318の実際の開発者質問と受け入れられた回答から構築された、最初のマルチプロジェクト、リポジトリレベルの質問応答データセットです。
論文 参考訳(メタデータ) (2026-03-27T16:30:54Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - DependEval: Benchmarking LLMs for Repository Dependency Understanding [16.19185341217556]
大規模言語モデル(LLM)は、コード生成、現実のソフトウェア開発において、リポジトリレベルの推論の高度な要求において、かなり有望であることを示している。
リポジトリ依存性の理解(DependEval)を評価するために設計された階層的なベンチマークを導入する。
Benchmarkは、現実世界のWebサイトから収集された15,576のリポジトリに基づいている。
論文 参考訳(メタデータ) (2025-03-09T16:45:22Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - DocCGen: Document-based Controlled Code Generation [33.19206322891497]
DocCGenは、構造化コード言語のためのNL-to-Code生成タスクを2段階のプロセスに分解することで、豊富な知識を活用できるフレームワークである。
実験の結果,DocCGenは6つの評価指標すべてで,言語モデルのサイズを常に改善していることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。