論文の概要: Synthesizing Precise Protocol Specs from Natural Language for Effective Test Generation
- arxiv url: http://arxiv.org/abs/2511.17977v1
- Date: Sat, 22 Nov 2025 08:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.562964
- Title: Synthesizing Precise Protocol Specs from Natural Language for Effective Test Generation
- Title(参考訳): 実効試験生成のための自然言語からの精密プロトコル仕様の合成
- Authors: Kuangxiangzi Liu, Dhiman Chakraborty, Alexander Liggesmeyer, Andreas Zeller,
- Abstract要約: AutoSPECは平均92.8%のクライアントと80.2%のサーバメッセージタイプを回復し、81.5%のメッセージ受信を現実世界のシステムで行う。
プロトタイプは, 広く用いられている5種類のアプローチの実現可能性を示した。
インターネットベースのプロトコル。
- 参考スコア(独自算出の注目度): 42.582977261473324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Safety- and security-critical systems have to be thoroughly tested against their specifications. The state of practice is to have _natural language_ specifications, from which test cases are derived manually - a process that is slow, error-prone, and difficult to scale. _Formal_ specifications, on the other hand, are well-suited for automated test generation, but are tedious to write and maintain. In this work, we propose a two-stage pipeline that uses large language models (LLMs) to bridge the gap: First, we extract _protocol elements_ from natural-language specifications; second, leveraging a protocol implementation, we synthesize and refine a formal _protocol specification_ from these elements, which we can then use to massively test further implementations. We see this two-stage approach to be superior to end-to-end LLM-based test generation, as 1. it produces an _inspectable specification_ that preserves traceability to the original text; 2. the generation of actual test cases _no longer requires an LLM_; 3. the resulting formal specs are _human-readable_, and can be reviewed, version-controlled, and incrementally refined; and 4. over time, we can build a _corpus_ of natural-language-to-formal-specification mappings that can be used to further train and refine LLMs for more automatic translations. Our prototype, AUTOSPEC, successfully demonstrated the feasibility of our approach on five widely used _internet protocols_ (SMTP, POP3, IMAP, FTP, and ManageSieve) by applying its methods on their _RFC specifications_ written in natural-language, and the recent _I/O grammar_ formalism for protocol specification and fuzzing. In its evaluation, AUTOSPEC recovers on average 92.8% of client and 80.2% of server message types, and achieves 81.5% message acceptance across diverse, real-world systems.
- Abstract(参考訳): 安全およびセキュリティクリティカルなシステムは、仕様に対して徹底的にテストする必要がある。
実践の状況は、_natural language_仕様を持つことで、テストケースは手作業で導出されます。
一方、_Formal_仕様は自動テスト生成に適していますが、記述とメンテナンスは面倒です。
本稿では,大きな言語モデル(LLM)を用いてギャップを埋める2段階のパイプラインを提案する。まず,自然言語仕様から_protocol element_を抽出する。
この2段階のアプローチは、エンドツーエンドのLCMベースのテスト生成よりも優れていると考えています。
1. 原文へのトレーサビリティを保持する_inspectable specification_を生成する。
2. 実際のテストケース _no の生成には LLM_;
3. 最終的な仕様は、_human-readable_で、レビュー、バージョン管理、インクリメンタルに洗練できる。
4.4では、自然言語から形式への特定マッピングの_corpus_を構築できます。
我々のプロトタイプであるAUTOSPECは、自然言語で書かれた_RFC仕様_にメソッドを適用することで、広く使われている5つの_internet protocol_(SMTP, POP3, IMAP, FTP, ManageSieve)と、プロトコル仕様とファズリングのための最近の_I/O文法_形式の適用可能性の実証に成功した。
評価では、AUTOSPECは平均92.8%のクライアントと80.2%のサーバメッセージタイプを回復し、81.5%のメッセージ受信を実現している。
関連論文リスト
- Protocol Testing with I/O Grammars [45.68497486907946]
本稿では,単一フレームワークにおける入力生成と出力チェックを組み合わせた新しいプロトコルテスト手法を提案する。
我々は、I/O文法が、テスト中のプログラムの出力検証を可能にするとともに、高度なプロトコルの特徴を正しく、完全に指定できることを実証する。
論文 参考訳(メタデータ) (2025-09-24T16:41:04Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - iPanda: An LLM-based Agent for Automated Conformance Testing of Communication Protocols [11.749977502129898]
大きな言語モデル(LLM)は、印象的なテキスト理解とコード生成能力を示している。
プロトコル適合性テストを自動化するために LLM を利用した最初のフレームワークである iPanda を提案する。
様々なプロトコルの実験により、iPandaは純粋なLCMベースのアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-01T02:27:44Z) - ModelForge: Using GenAI to Improve the Development of Security Protocols [1.9241821314180376]
プロトコル仕様の翻訳を自動化する新しいツールであるModelForgeを紹介する。
自然言語処理(NLP)と生成AI(GenAI)の進歩を活用することで、ModelForgeはプロトコル仕様を処理し、CPSAプロトコル定義を生成する。
論文 参考訳(メタデータ) (2025-06-08T06:27:09Z) - Validating Network Protocol Parsers with Traceable RFC Document Interpretation [11.081773172066766]
オラクルとトレーサビリティの問題は、プロトコルの実装がいつバグがあると考えられるかを決定する。
この研究はどちらも考慮し、大規模言語モデル(LLM)の最近の進歩を利用した効果的なソリューションを提供する。
我々は、C、Python、Goで書かれた9つのネットワークプロトコルとその実装を使用して、我々のアプローチを広く評価してきた。
論文 参考訳(メタデータ) (2025-04-25T03:39:19Z) - Large Language Models for Validating Network Protocol Parsers [8.007994733372675]
プロトコル標準は一般的に自然言語で書かれるが、実装はソースコードで書かれている。
大規模言語モデル(LLM)に基づくフレームワークであるPARVALを提案する。
プロトコル標準とそれらの実装の両方を、フォーマット仕様と呼ばれる統一された中間表現に変換する。
実装とRFC標準の矛盾をうまく識別し、偽陽性率は5.6%と低い。
論文 参考訳(メタデータ) (2025-04-18T07:09:56Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。