論文の概要: DSL or Code? Evaluating the Quality of LLM-Generated Algebraic Specifications: A Case Study in Optimization at Kinaxis
- arxiv url: http://arxiv.org/abs/2601.00469v2
- Date: Mon, 05 Jan 2026 17:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.836029
- Title: DSL or Code? Evaluating the Quality of LLM-Generated Algebraic Specifications: A Case Study in Optimization at Kinaxis
- Title(参考訳): DSLかコードか? LLM生成代数仕様の品質評価:Kinaxisにおける最適化のケーススタディ
- Authors: Negin Ayoughi, David Dewar, Shiva Nejati, Mehrdad Sabetzadeh,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語記述からモデルを直接生成することで、コストバランスのシフトを支援する。
しかし、ドメイン固有の言語では、LLM生成モデルはPythonのような主流言語でLLM生成コードよりも正確ではないかもしれない。
AMPLモデルとPythonコードをNL問題記述から導出するLLMベースのアプローチであるEXEOSを導入する。
- 参考スコア(独自算出の注目度): 1.5821080783312833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-driven engineering (MDE) provides abstraction and analytical rigour, but industrial adoption in many domains has been limited by the cost of developing and maintaining models. Large language models (LLMs) can help shift this cost balance by supporting direct generation of models from natural-language (NL) descriptions. For domain-specific languages (DSLs), however, LLM-generated models may be less accurate than LLM-generated code in mainstream languages such as Python, due to the latter's dominance in LLM training corpora. We investigate this issue in mathematical optimization, with AMPL, a DSL with established industrial use. We introduce EXEOS, an LLM-based approach that derives AMPL models and Python code from NL problem descriptions and iteratively refines them with solver feedback. Using a public optimization dataset and real-world supply-chain cases from our industrial partner Kinaxis, we evaluate generated AMPL models against Python code in terms of executability and correctness. An ablation study with two LLM families shows that AMPL is competitive with, and sometimes better than, Python, and that our design choices in EXEOS improve the quality of generated specifications.
- Abstract(参考訳): モデル駆動工学(MDE)は抽象化と分析の厳密さを提供するが、多くの領域での産業導入は、モデルの開発と保守のコストによって制限されてきた。
大規模言語モデル(LLM)は、自然言語(NL)記述からモデルを直接生成することで、このコストバランスのシフトを支援する。
しかし、ドメイン固有言語(DSL)では、LLMが生成するモデルは、Pythonのような主流言語でLLMが生成するコードよりも正確ではないかもしれない。
本稿では,産業利用の確立したDSLであるAMPLを用いて,数式最適化におけるこの問題について検討する。
AMPLモデルとPythonコードをNL問題記述から導出するLLMベースのアプローチであるEXEOSを導入する。
産業パートナーKinaxisのパブリック最適化データセットと実世界のサプライチェーンケースを用いて、実行可能性と正確性の観点から、生成したAMPLモデルをPythonコードに対して評価した。
2つのLLMファミリによるアブレーション調査では、AMPLはPythonと競合し、時には優れていることが示され、EXEOSの設計選択によって生成された仕様の品質が向上している。
関連論文リスト
- SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning [39.94602104823846]
大規模言語モデル(LLM)は、構文的エラーを含むプログラムを生成し、与えられたタスクを完了できない。
本研究では、強化学習(RL)技術を用いて微調整された小言語モデル(SLM)を利用する新しいコード生成パイプラインであるSLMFixを提案する。
論文 参考訳(メタデータ) (2025-11-24T18:56:47Z) - Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML [3.5515013986822073]
本研究は,Aのレベル管理部門と共同で実施した事例研究である。
閉鎖的,高度に専門化されたソフトウェア環境において,機能的,保守性のあるコードを生成する上でのLLMの性能について検討する。
その結果、プロンプト技術とモデルサイズが出力品質に重大な影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-15T19:39:26Z) - Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Evaluating Language Models for Generating and Judging Programming Feedback [4.743413681603463]
大規模言語モデル(LLM)は、幅広い領域で研究と実践を変革してきた。
我々は,オープンソースのLCMのプログラミング課題に対する高品質なフィードバック生成における効率性を評価する。
論文 参考訳(メタデータ) (2024-07-05T21:44:11Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
本稿では,オープンソースのLLMをトレーニングし,モデリングやソルバコードの開発を最適化する実行可能なパスを提案する。
この研究は、実用的なOR問題の解決においてLLMを評価するための最初の産業ベンチマークであるIndustrialORも導入した。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。