論文の概要: MCeT: Behavioral Model Correctness Evaluation using Large Language Models
- arxiv url: http://arxiv.org/abs/2508.00630v1
- Date: Fri, 01 Aug 2025 13:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.896607
- Title: MCeT: Behavioral Model Correctness Evaluation using Large Language Models
- Title(参考訳): MCeT:大規模言語モデルを用いた行動モデル精度評価
- Authors: Khaled Ahmed, Jialing Song, Boqi Chen, Ou Wei, Bingzhou Zheng,
- Abstract要約: AIモデリングアシスタントとしてのLarge Language Models(LLM)の利用の増加に伴い、ダイアグラムの生成により多くの自動化が関与するようになる。
本稿では,行動モデル,特にシーケンス図の正しさを,対応する要求テキストに対して評価する最初の完全自動化ツールMCeTを提案する。
- 参考スコア(独自算出の注目度): 3.26805553822503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral model diagrams, e.g., sequence diagrams, are an essential form of documentation that are typically designed by system engineers from requirements documentation, either fully manually or assisted by design tools. With the growing use of Large Language Models (LLM) as AI modeling assistants, more automation will be involved in generating diagrams. This necessitates the advancement of automatic model correctness evaluation tools. Such a tool can be used to evaluate both manually and AI automatically generated models; to provide feedback to system engineers, and enable AI assistants to self-evaluate and self-enhance their generated models. In this paper, we propose MCeT, the first fully automated tool to evaluate the correctness of a behavioral model, sequence diagrams in particular, against its corresponding requirements text and produce a list of issues that the model has. We utilize LLMs for the correctness evaluation tasks as they have shown outstanding natural language understanding ability. However, we show that directly asking an LLM to compare a diagram to requirements finds less than 35% of issues that experienced engineers can find. We propose to supplement the direct check with a fine-grained, multi-perspective approach; we split the diagram into atomic, non-divisible interactions, and split the requirements text into atomic, self-contained items. We compare the diagram with atomic requirements and each diagram-atom with the requirements. We also propose a self-consistency checking approach that combines perspectives to mitigate LLM hallucinated issues. Our combined approach improves upon the precision of the direct approach from 0.58 to 0.81 in a dataset of real requirements. Moreover, the approach finds 90% more issues that the experienced engineers found than the direct approach, and reports an average of 6 new issues per diagram.
- Abstract(参考訳): 振舞いモデルダイアグラム、例えばシーケンスダイアグラムは、要求文書からシステムエンジニアによって設計され、完全に手動または設計ツールによって支援される。
AIモデリングアシスタントとしてのLarge Language Models(LLM)の利用の増加に伴い、ダイアグラムの生成により多くの自動化が関与するようになる。
これにより、自動モデルの正当性評価ツールの進歩が必要となる。
このようなツールは、手動とAIが自動生成するモデルの両方を評価し、システムエンジニアにフィードバックを提供し、AIアシスタントが生成されたモデルの自己評価と自己評価を可能にするために使用することができる。
本稿では,行動モデル,特にシーケンス図の正しさを,対応する要求テキストに対して評価し,そのモデルが持つ問題のリストを作成するための,最初の完全自動化ツールであるMCeTを提案する。
我々は,自然言語理解能力に優れる言語理解能力を示すため,LLMを精度評価タスクに活用する。
しかし、LCMに直接図と要件を直接比較するよう求めると、経験豊富なエンジニアが発見できる問題の35%以下しか見つからないことがわかる。
図を原子的・非可分な相互作用に分割し、要求テキストを原子的・自己完結した項目に分割する。
ダイアグラムを原子要求と比較し、それぞれのダイアグラム-原子を要求と比較する。
また,LLMの幻覚的問題を緩和するために,視点を組み合わせた自己整合性検査手法を提案する。
我々の組み合わせのアプローチは、実際の要求のデータセットにおいて、直接アプローチの精度を 0.58 から 0.81 に改善する。
さらに、このアプローチでは、経験豊富なエンジニアが直接アプローチよりも90%多い問題を見つけ、ダイアグラム毎に平均6つの新しい問題を報告している。
関連論文リスト
- Behavioral Augmentation of UML Class Diagrams: An Empirical Study of Large Language Models for Method Generation [0.0]
本研究では, 大規模言語モデル(LLM)を用いて, 21 の構造化廃棄物処理事例を用いて, メソドレスダイアグラム(21 クラス, 17 の関係性)を増強する。
合計90の図(3,373の方法)が6回にわたって評価された。
論文 参考訳(メタデータ) (2025-06-01T02:33:40Z) - Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。
DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - Inference-Time Intervention in Large Language Models for Reliable Requirement Verification [2.3759432635713895]
推論時間介入技術は微調整に代わる有望な手段である。
我々は、介入が通常時間を要する要求検証プロセスを自動化するためのきめ細かい制御を可能にする方法を実証する。
提案手法は, ベースラインモデルと微調整手法の両方において, 頑健で信頼性の高い出力を実現する。
論文 参考訳(メタデータ) (2025-03-18T10:49:36Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - ModelGPT: Unleashing LLM's Capabilities for Tailored Model Generation [35.160964210941955]
本稿では,ユーザが提供するデータやタスク記述に適したAIモデルを決定・生成するフレームワークであるModelGPTを提案する。
ユーザの要求に応じて、ModelGPTは、以前のパラダイムよりも少なくとも270倍高速に、調整済みのモデルを提供することができる。
論文 参考訳(メタデータ) (2024-02-18T11:24:34Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering [26.34649731975005]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文 参考訳(メタデータ) (2023-07-31T17:41:00Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。