Fugu-MT 論文翻訳(概要): Class Model Generation from Requirements using Large Language Models

論文の概要: Class Model Generation from Requirements using Large Language Models

arxiv url: http://arxiv.org/abs/2603.09100v1
Date: Tue, 10 Mar 2026 02:20:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:23.948236
Title: Class Model Generation from Requirements using Large Language Models
Title（参考訳）: 大規模言語モデルを用いた要求からのクラスモデル生成
Authors: Jackson Nguyen, Rui En Koe, Fanyu Wang, Chetan Arora, Alessio Ferrari,
Abstract要約: 大規模言語モデル(LLM)は、自然言語要求から自動的にクラス図を生成することができる。本稿では,GPT-5,Claude Sonnet 4.0,Gemini 2.5 Flash Thinking,Llama-3.1-8-B-Instructなどの最先端LLMの能力について検討する。
参考スコア（独自算出の注目度）: 5.685497917524985
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The emergence of Large Language Models (LLMs) has opened new opportunities to automate software engineering activities that traditionally require substantial manual effort. Among these, class diagram generation represents a critical yet resource-intensive phase in software design. This paper investigates the capabilities of state-of-the-art LLMs, including GPT-5, Claude Sonnet 4.0, Gemini 2.5 Flash Thinking, and Llama-3.1-8B-Instruct, to generate UML class diagrams from natural language requirements automatically. To evaluate the effectiveness and reliability of LLM-based model generation, we propose a comprehensive dual-validation framework that integrates an LLM-as-a-Judge methodology with human-in-the-loop assessment. Using eight heterogeneous datasets, we apply chain-of-thought prompting to extract domain entities, attributes, and associations, generating corresponding PlantUML representations. The resulting models are evaluated across five quality dimensions: completeness, correctness, conformance to standards, comprehensibility, and terminological alignment. Two independent LLM judges (Grok and Mistral) perform structured pairwise comparisons, and their judgments are further validated against expert evaluations. Our results demonstrate that LLMs can generate structurally coherent and semantically meaningful UML diagrams, achieving substantial alignment with human evaluators. The consistency observed between LLM-based and human-based assessments highlights the potential of LLMs not only as modeling assistants but also as reliable evaluators in automated requirements engineering workflows, offering practical insights into the capabilities and limitations of LLM-driven UML class diagram automation.
Abstract（参考訳）: 大規模言語モデル(LLM)の出現は、伝統的にかなりの手作業を必要とするソフトウェアエンジニアリング活動を自動化する新たな機会を開いた。これらのうち、クラス図生成は、ソフトウェア設計において重要ながリソース集約的なフェーズである。本稿では,GPT-5,Claude Sonnet 4.0,Gemini 2.5 Flash Thinking,Llama-3.1-8B-Instructなどの最先端LLMを用いて,自然言語要求からUMLクラス図を自動生成する機能について検討する。 LLMモデル生成の有効性と信頼性を評価するため,LLM-as-a-Judge法とHuman-in-the-loopアセスメントを統合した総合的二重検証フレームワークを提案する。ヘテロジニアスな8つのデータセットを用いて、ドメインエンティティ、属性、アソシエーションを抽出し、対応するPandUML表現を生成する。得られたモデルは、完全性、正確性、標準への適合性、理解性、用語的アライメントの5つの品質次元で評価される。 2つの独立したLCM審査員(GrokとMistral)は、構造化されたペアワイズ比較を行い、それらの判断は専門家の評価に対してさらに検証される。以上の結果から,LLMは構造的に一貫性があり,意味的に意味のあるUML図を生成することができ,人的評価器との相当な整合性を実現することができることが示された。 LLMベースの評価と人間ベースの評価の一貫性は、モデリングアシスタントとしてだけでなく、自動化された要求エンジニアリングワークフローにおける信頼性の高い評価者としてのLLMの可能性を強調し、LLM駆動のUMLクラスダイアグラム自動化の能力と限界に関する実践的な洞察を提供する。

関連論文リスト

Learning to Judge: LLMs Designing and Applying Evaluation Rubrics [18.936553687978087]
大規模言語モデル (LLM) は、自然言語生成のための評価器としてますます使われている。 GER-Evalを導入し,LLMが独自の評価ルーブリックを設計および適用できるかどうかを検討する。
論文参考訳（メタデータ） (2026-02-09T13:56:06Z)
Assessing the Business Process Modeling Competences of Large Language Models [40.495149980011924]
大規模言語モデル(LLM)は、自然言語から直接ビジネスプロセスモデルと表記(BPMN)モデルを生成する可能性を大幅に拡大しました。 BEF4LLMは, 構文的品質, 実用的品質, 意味的品質, 妥当性の4点からなる新しい評価フレームワークである。 BEF4LLM を用いて,オープンソース LLM の包括的解析を行い,その性能を人体モデリングの専門家に対してベンチマークする。
論文参考訳（メタデータ） (2026-01-29T14:34:20Z)
NOMAD: A Multi-Agent LLM System for UML Class Diagram Generation from Natural Language Requirements [20.080985332719383]
大規模言語モデル(LLM)は、ソフトウェア工学においてますます活用されているが、図のような構造化されたアーティファクトを生成する能力はまだ未熟である。この研究で我々は、認知にインスパイアされたモジュール型マルチエージェントフレームワークであるNOMADを紹介し、生成を一連の役割特化サブタスクに分解する。各エージェントは、エンティティ抽出、関係分類、合成ダイアグラム、エンジニアのゴール指向推論プロセスのミラーリングなど、異なるモデリングアクティビティを処理します。
論文参考訳（メタデータ） (2025-11-27T12:36:25Z)
LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation [0.7933039558471408]
我々は,複雑な解析的および数学的推論タスクに,文脈的理解が不要であることに対処する。既存のベンチマークデータセットは、動的な環境、変数、不均一な制約でそのような問題の複雑さに対処できない。 NL4RAは、LP、ILP、MILPとして定式化された50のリソース割り当て最適化問題からなるキュレートデータセットである。次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
論文参考訳（メタデータ） (2025-11-13T23:19:43Z)
Evaluating Language Models for Generating and Judging Programming Feedback [4.743413681603463]
大規模言語モデル(LLM)は、幅広い領域で研究と実践を変革してきた。我々は,オープンソースのLCMのプログラミング課題に対する高品質なフィードバック生成における効率性を評価する。
論文参考訳（メタデータ） (2024-07-05T21:44:11Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。