論文の概要: Evaluating LLM-generated code for domain-specific languages: molecular dynamics with LAMMPS
- arxiv url: http://arxiv.org/abs/2603.20630v1
- Date: Sat, 21 Mar 2026 03:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.001899
- Title: Evaluating LLM-generated code for domain-specific languages: molecular dynamics with LAMMPS
- Title(参考訳): ドメイン固有言語のためのLLM生成コードの評価:LAMMPSを用いた分子動力学
- Authors: Ethan Holbrook, Juan C. Verduzco, Alejandro Strachan,
- Abstract要約: 大規模言語モデル(LLM)は、研究者が科学計算のコードやデータと相互作用する方法を変えつつある。
本稿では,LLM生成したLAMMPS(広く使われている分子動力学(MD)コード)の入力ファイルの有効性を評価するための評価手順を提案する。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are changing the way researchers interact with code and data in scientific computing. While their ability to generate general-purpose code is well established, their effectiveness in producing scientifically valid code/input scripting for domain-specific languages (DSLs) remains largely unexplored. We propose an evaluation procedure that enables domain experts (who may not be experts in the DSL) to assess the validity of LLM-generated input files for LAMMPS, a widely used molecular dynamics (MD) code, and to use those assessments to evaluate the performance of state-of-the-art LLMs and identify common issues. Key to the evaluation procedure are a normalization step to generate canonical files and an extensible parser for syntax analysis. The following steps isolate common errors without incurring costly tests (in time and computational resources). Once a working input file is generated, LLMs can accelerate verification tests. Our findings highlight limitations of LLMs in generating scientific DSLs and a practical path forward for their integration into domain-specific computational ecosystems by domain experts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、研究者が科学計算のコードやデータと相互作用する方法を変えつつある。
汎用的なコードを生成する能力は十分に確立されているが、科学的に有効なドメイン固有言語(DSL)のためのコード/インプットスクリプティング(英語版)を作成する効果は、いまだほとんど解明されていない。
本稿では,ドメインエキスパート(DSLの専門家ではないかもしれない)がLAMMPSのLLM生成入力ファイルの有効性を評価するための評価手順を提案する。
評価手順の鍵となるのは、標準ファイルを生成する正規化ステップと、構文解析のための拡張可能なパーサである。
以下のステップでは、コストのかかるテスト(時間と計算資源)を発生させることなく、一般的なエラーを分離する。
動作中の入力ファイルが生成されると、LCMは検証テストを高速化する。
本研究は,LLMの科学的DSL生成における限界と,ドメインの専門家によるドメイン固有の計算エコシステムへの統合に向けた実践的な道のりを明らかにする。
関連論文リスト
- Toward Automated and Trustworthy Scientific Analysis and Visualization with LLM-Generated Code [6.068120728706316]
大規模言語モデル(LLM)は、自然言語記述からコードを生成することで、有望なソリューションを提供する。
実際の研究課題を反映したドメインインスパイアされたプロンプトのベンチマークスイートを構築した。
人間の介入なしには, LLM生成コードの信頼性は限られている。
論文 参考訳(メタデータ) (2025-11-26T21:27:03Z) - Can LLMs Replace Humans During Code Chunking? [2.4056836012742]
大規模言語モデル(LLM)は、特にコード理解と生成に関わるタスクにおいて、コンピュータ科学において重要なツールとなっている。
本稿では,ALC および MUMPS で記述されたレガシ行政コードの近代化における LLM の適用について検討する。
論文 参考訳(メタデータ) (2025-06-24T13:02:35Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain Settings [32.72039589832989]
大規模言語モデル(LLM)はコード生成に革命をもたらし、プログラミングを驚くほどの効率で自動化した。
これらの進歩はプログラミングのスキル、倫理、評価の整合性に挑戦し、説明責任と標準を維持するのに欠かせないLCM生成コードを検出する。
複数のプログラミング言語、コードジェネレータ、ドメインにまたがる人間とLLMで書かれたコードを区別できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T21:41:37Z) - DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation [48.11754113512047]
この研究には、コード生成ベンチマークデータセットであるDOMAINEVALが含まれており、6つの人気のあるドメインを含んでいる。
私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。
本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全自動化パイプライン、DOMAINEVALのパフォーマンスに基づいたコード生成タスクにおけるLLMの制限の識別が含まれている。
論文 参考訳(メタデータ) (2024-08-23T16:33:58Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Large Language Models for Code Analysis: Do LLMs Really Do Their Job? [13.48555476110316]
大規模言語モデル(LLM)は、自然言語理解とプログラミングコード処理タスクの領域において大きな可能性を証明している。
本稿では、コード解析タスクの実行におけるLLMの能力を総合的に評価する。
論文 参考訳(メタデータ) (2023-10-18T22:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。