論文の概要: A System Model Generation Benchmark from Natural Language Requirements
- arxiv url: http://arxiv.org/abs/2508.03215v1
- Date: Tue, 05 Aug 2025 08:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.869254
- Title: A System Model Generation Benchmark from Natural Language Requirements
- Title(参考訳): 自然言語要求からのシステムモデル生成ベンチマーク
- Authors: Dongming Jin, Zhi Jin, Linyu Li, Zheng Fang, Jia Li, Xiaohong Chen,
- Abstract要約: 今回紹介するSysMBenchは,広く普及しているドメインにまたがる151の人間計算シナリオで構成されている。
各シナリオは、主に自然言語要求記述、特定のモデル記述言語で表現されたシステムモデル、可視化されたシステムモデル図で構成されます。
生成したシステムモデルの品質を評価するためのセマンティック・アウェア評価指標であるSysMEvalを紹介する。
- 参考スコア(独自算出の注目度): 29.820716110232553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: System models, a critical artifact in software development, provide a formal abstraction of both the structural and behavioral aspects of software systems, which can facilitate the early requirements analysis and architecture design. However, developing system models remains challenging due to the specific syntax of model description languages and the relative scarcity of public model examples. While large language models (LLMs) have shown promise in generating code with programming languages and could potentially aid in system model development, no benchmarks currently exist for evaluating their ability to generate system models with specific description languages. We present SysMBench, which comprises 151 human-curated scenarios spanning a wide range of popular domains and varying difficulty levels. Each scenario mainly comprises a natural language requirements description, a system model expressed in a specific model description language, and a visualized system model diagram. The requirements description is fed as user input to the LLM, the system model with description language is used to verify if the generated system model conforms to the requirements, and the visualized diagram serves to support manual validation. We introduce SysMEval, a semantic-aware evaluation metric to evaluate the quality of generated system models. We evaluate 17 popular LLMs on this task with three traditional metrics and SysMEval, from directly prompting to three commonly used enhancement strategies. Our in-depth evaluation shows that LLMs perform poorly on SysMBench, with the highest BLEU of 4% and SysMEval-F1 of 62%. We release the SysMBench and its evaluation framework to enable future research on LLM-based system model generation.
- Abstract(参考訳): システムモデルは、ソフトウェア開発において重要な成果物であり、ソフトウェアシステムの構造的側面と行動的側面の両方を形式的に抽象化し、初期の要求分析とアーキテクチャ設計を容易にする。
しかし、モデル記述言語の特定の構文と、パブリックモデルサンプルの相対的不足のため、システムモデルの開発は依然として困難なままである。
大規模言語モデル(LLM)は、プログラミング言語でコードを生成することを約束しており、システムモデル開発を支援する可能性があるが、特定の記述言語でシステムモデルを生成する能力を評価するためのベンチマークは今のところ存在しない。
今回紹介するSysMBenchは,広く普及しているドメインとさまざまな難易度にまたがる151の人為的なシナリオで構成されている。
各シナリオは、主に自然言語要求記述、特定のモデル記述言語で表現されたシステムモデル、可視化されたシステムモデル図で構成されます。
要件記述は、LCMへのユーザ入力として提供され、記述言語を備えたシステムモデルを使用して、生成されたシステムモデルがその要件に準拠しているかどうかを検証し、視覚化された図は、手作業による検証をサポートする。
生成したシステムモデルの品質を評価するためのセマンティック・アウェア評価指標であるSysMEvalを紹介する。
我々は,従来の3つの指標とSysMEvalを用いて17のLLMを評価し,直接的に3つの拡張戦略を評価する。
以上の結果から, LLM はSysMBench に悪影響を及ぼし, BLEU は4%, SysMEval-F1 は62%であった。
我々はSysMBenchとその評価フレームワークをリリースし、LLMベースのシステムモデル生成の今後の研究を可能にする。
関連論文リスト
- Text to model via SysML: Automated generation of dynamical system computational models from unstructured natural language text via enhanced System Modeling Language diagrams [0.0]
本稿では,ドメイン知識とエキスパート知識を活用する戦略を提案することによって,エンジニアリング力学系の設計と展開の高速化に寄与する。
システムモデリング言語図(SysML)を使用して、コンポーネントの依存関係、属性、操作に関する正確な情報を抽出する。
論文 参考訳(メタデータ) (2025-07-09T12:44:49Z) - Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Learnware of Language Models: Specialized Small Language Models Can Do Big [50.285859986475394]
本稿では,学習用パラダイムを言語モデルに適用するための予備的試みを示す。
我々は,8Bパラメータを持つ特殊SLMの学習装置を約100個構成した学習装置をシミュレートした。
各タスク固有の推論に対して1つの適切な学習ウェアを選択することで、システムは全てのベンチマークでベースSLMよりも優れる。
論文 参考訳(メタデータ) (2025-05-19T17:54:35Z) - LLM-enabled Instance Model Generation [4.52634430160579]
本研究では,大規模言語モデル(LLM)を用いたインスタンスモデルの生成について検討する。
まず、LLMを用いて、必要なすべてのインスタンスモデル情報を含む簡易な構造化出力を生成し、その中間表現を有効なXMIファイルにコンパイルする。
提案手法は, 実例モデル生成タスクにおけるLCMのユーザビリティを著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-28T16:34:29Z) - SysBench: Can Large Language Models Follow System Messages? [30.701602680394686]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがって実装されており、これらのモデルを特定のシナリオにカスタマイズすることがますます重要になっている。
AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、LLMがシステムメッセージにどの程度うまく従うかを評価するためのベンチマークは、特に欠落している。
我々は,既存のLLMの3つの制限の観点から,システムメッセージ追従能力を体系的に解析するベンチマークであるSysBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-20T15:33:16Z) - Model Generation with LLMs: From Requirements to UML Sequence Diagrams [9.114284818139069]
本稿では,NL要求から特定のモデル,すなわちシーケンス図を生成するChatGPTの能力について検討する。
本稿では,ChatGPTが生成した28種類の要求文書と異なるドメインのシーケンス図について検討する。
以上の結果から, モデルが標準に適合し, 合理的な理解可能性を示す一方で, 要求条件に対する完全性や正当性は, しばしば課題となることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T15:07:25Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - From Natural Language to Simulations: Applying GPT-3 Codex to Automate
Simulation Modeling of Logistics Systems [0.0]
この研究は、物流にとって重要なシステムのシミュレーションモデルの開発を自動化するために自然言語処理を適用する最初の試みである。
我々は,変換言語モデルであるGPT-3コーデックスをベースとしたフレームワークが,言語記述による待ち行列と在庫制御系の機能的に有効なシミュレーションを生成できることを実証した。
論文 参考訳(メタデータ) (2022-02-24T14:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。