論文の概要: (How) Do Large Language Models Understand High-Level Message Sequence Charts?
- arxiv url: http://arxiv.org/abs/2605.13773v2
- Date: Thu, 14 May 2026 04:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.925687
- Title: (How) Do Large Language Models Understand High-Level Message Sequence Charts?
- Title(参考訳): ()大規模言語モデルは高レベルメッセージシーケンスチャートをどう理解するか?
- Authors: Mohammad Reza Mousavi,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発ライフサイクル全体にわたってタスクを自動化するために広く使われています。
しかしながら、これらのタスクが処理対象のアーティファクトのセマンティクスに関して一貫して実行されるかどうかは不明である。
LLMがHMSCのセマンティクスを「理解」するかどうかを3つのLLMを用いて検討し、19のセマンティクスタスクの実行方法について検討した。
- 参考スコア(独自算出の注目度): 0.23689955632456086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are being employed widely to automate tasks across the software development life-cycle. It is, however, unclear whether these tasks are performed consistently with respect to the semantics of the artefacts being handled. This question is particularly under-researched concerning architectural design specification. In this paper, we address this question for High-Level Message Sequence Charts (HMSCs). These are visual models with a rigorous formal semantics that have been used for various purposes, including as a foundation for Sequence Diagrams in the Unified Modelling Language (UML). We examine whether LLMs "understand" the semantics of HMSCs by examining three LLMs (Gemini-3, GPT-5.4, and Qwen-3.6) on how they perform 129 semantic tasks ranging from querying basic semantic constructs in HMSCs (i.e., events and their ordering) to semantic-preserving abstractions and compositions, and calculating the set of traces and trace-equivalent labelled transition systems. The results show that LLMs only have a modest understanding of the formal semantics of HMSCs (ca. 52% overall accuracy), with great variability across different semantic concepts: while LLMs seem to understand the basic semantic concepts of MSCs (ca. 88% accuracy), they struggle with semantic reasoning in tasks involving abstraction and composition (ca. 36% accuracy) and traces and LTSs (ca. 42% accuracy). In particular, all three LLMs struggle with the notions of co-region and explicit causal dependencies and never employed them in semantic-preserving transformations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア開発ライフサイクル全体にわたってタスクを自動化するために広く使われています。
しかしながら、これらのタスクが処理対象のアーティファクトのセマンティクスに関して一貫して実行されるかどうかは不明である。
この問題は特にアーキテクチャ設計の仕様について研究されていない。
本稿では,HMSC(High-Level Message Sequence Charts)について述べる。
これらは、UML(Unified Modelling Language)におけるシーケンスダイアグラム(Sequence Diagrams)の基盤など、様々な目的で使われてきた厳密な形式的意味論を持つビジュアルモデルである。
我々は,3つのLLM(Gemini-3, GPT-5.4, Qwen-3.6)を用いて,HMSCの基本的意味構文の問合せから,意味保存抽象化や構成,トレースおよびトレース等価なラベル付き遷移システムの集合の計算まで,3つのLLM(Gemini-3, GPT-5.4, Qwen-3.6)を問うことによって,LLMがHMSCのセマンティクスを"理解"するかどうかを検討する。
その結果、LLMはHMSCの形式的意味論(全体の52%の精度)を緩やかに理解し、異なる意味概念の相違も大きく、MSCの基本的な意味論概念(約88%の精度)を理解しているように見える一方で、抽象的・構成的タスク(約36%の精度)とトレース的・LTS的概念(約42%の精度)のセマンティック推論に苦慮していることがわかった。
特に、3つのLLMは、共領域と明示的な因果依存性の概念に苦慮し、意味保存変換においてそれらを決して使用しない。
関連論文リスト
- Many-Shot CoT-ICL: Making In-Context Learning Truly Learn [58.439517684779936]
In-context Learning (ICL)は、パラメータを更新せずにプロンプト内のデモを条件にすることで、大きな言語モデルを新しいタスクに適応させる。
提案手法は,標準のマルチショット・ルールが転送されないことを示すために,マルチショット・チェーン・オブ・コンテクスト・ラーニング(CoT-ICL)について検討する。
論文 参考訳(メタデータ) (2026-05-13T13:30:12Z) - PLSemanticsBench: Large Language Models As Programming Language Interpreters [31.611330217819713]
大規模言語モデル(LLMs)がコード推論に長けているため、自然な疑問が生じる: LLMはプログラム(つまり、インタプリタとして振舞う)を純粋にプログラミング言語の形式的意味論に基づいて実行できるか?
本稿では, 命令型言語IMPを用いて, 小ステップ操作意味論 (SOS) と書き直しに基づく操作意味論 (K-semantics) によって定式化されている問題について検討する。
本稿では,Human-Written,LLM-Translated,Fuzzer-Generatedの3つの評価セットを提案する。
論文 参考訳(メタデータ) (2025-10-03T18:23:26Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Can LLMs perform structured graph reasoning? [4.676784872259775]
LLM(Pretrained Large Language Models)は、言語ベースのプロンプトだけで様々な推論能力を示す。
本稿では,半構造化タスクのプロキシとして,様々なグラフ推論タスクを設計する。
上記の課題に対して,5種類のインストラクト微細化LDM (GPT-4, GPT-3.5, Claude-2, Llama-2, Palm-2) をベンチマークした。
論文 参考訳(メタデータ) (2024-02-02T09:45:33Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。