論文の概要: MermaidSeqBench: An Evaluation Benchmark for LLM-to-Mermaid Sequence Diagram Generation
- arxiv url: http://arxiv.org/abs/2511.14967v1
- Date: Tue, 18 Nov 2025 23:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.561656
- Title: MermaidSeqBench: An Evaluation Benchmark for LLM-to-Mermaid Sequence Diagram Generation
- Title(参考訳): MermaidSeqBench: LLM-to-rmaidシーケンスダイアグラム生成のための評価ベンチマーク
- Authors: Basel Shbita, Farhan Ahmed, Chad DeLuca,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語記述から構造化図を生成する優れた能力を示した。
本稿では,テキストプロンプトからMermaidシーケンス図を生成するLLMの能力を評価するベンチマークであるMermaidSeqBenchを紹介する。
LLM-as-a-judgeモデルを用いて,文法の正確性,アクティベーションハンドリング,エラーハンドリング,実用的ユーザビリティなど,詳細なメトリクス間でのマーメイドシーケンスダイアグラムの生成を評価する。
- 参考スコア(独自算出の注目度): 1.1369235139211635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated excellent capabilities in generating structured diagrams from natural language descriptions. In particular, they have shown great promise in generating sequence diagrams for software engineering, typically represented in a text-based syntax such as Mermaid. However, systematic evaluations in this space remain underdeveloped as there is a lack of existing benchmarks to assess the LLM's correctness in this task. To address this shortcoming, we introduce MermaidSeqBench, a human-verified and LLM-synthetically-extended benchmark for assessing an LLM's capabilities in generating Mermaid sequence diagrams from textual prompts. The benchmark consists of a core set of 132 samples, starting from a small set of manually crafted and verified flows. These were expanded via a hybrid methodology combining human annotation, in-context LLM prompting, and rule-based variation generation. Our benchmark uses an LLM-as-a-judge model to assess Mermaid sequence diagram generation across fine-grained metrics, including syntax correctness, activation handling, error handling, and practical usability. We perform initial evaluations on numerous state-of-the-art LLMs and utilize multiple LLM judge models to demonstrate the effectiveness and flexibility of our benchmark. Our results reveal significant capability gaps across models and evaluation modes. Our proposed benchmark provides a foundation for advancing research in structured diagram generation and for developing more rigorous, fine-grained evaluation methodologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語記述から構造化図を生成する優れた能力を示した。
特に、彼らはソフトウェアエンジニアリングのシーケンスダイアグラムを生成することに大きな期待を示しており、通常はMermaidのようなテキストベースの構文で表現されている。
しかし、この分野での体系的な評価は、この作業におけるLLMの正しさを評価するための既存のベンチマークが欠如しているため、未開発のままである。
この欠点に対処するために、テキストプロンプトからMermaidシーケンスダイアグラムを生成する際のLLMの能力を評価するための人間検証およびLLM合成拡張ベンチマークであるMermaidSeqBenchを紹介する。
ベンチマークは132個のサンプルからなるコアセットで構成されており、手作業で作成され、検証されたフローの小さなセットから始まる。
これらは、人間のアノテーション、文脈内LPMプロンプト、ルールベースの変動生成を組み合わせたハイブリッド手法によって拡張された。
LLM-as-a-judgeモデルを用いて,文法の正確性,アクティベーションハンドリング,エラーハンドリング,実用的ユーザビリティなど,詳細なメトリクス間でのマーメイドシーケンスダイアグラムの生成を評価する。
我々は、多数の最先端LCMの初期評価を行い、複数のLCM判定モデルを用いて、ベンチマークの有効性と柔軟性を実証した。
この結果から,モデルと評価モードの間に有意な差があることが判明した。
提案するベンチマークは,構造図生成研究の進展と,より厳密できめ細かな評価手法の開発のための基盤を提供する。
関連論文リスト
- Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [27.216039759668675]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。
我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文 参考訳(メタデータ) (2025-07-29T18:59:09Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。