論文の概要: Automated Network Protocol Testing with LLM Agents
- arxiv url: http://arxiv.org/abs/2510.13248v1
- Date: Wed, 15 Oct 2025 07:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.553764
- Title: Automated Network Protocol Testing with LLM Agents
- Title(参考訳): LLMエージェントによるネットワークプロトコルの自動テスト
- Authors: Yunze Wei, Kaiwen Wei, Shibo Du, Jianyu Wang, Zhangzhong Liu, Yawen Wang, Zhanyou Li, Congcong Miao, Xiaohui Xie, Yong Cui,
- Abstract要約: NeTestLLMは、エンドツーエンドのネットワークプロトコルテストにマルチエージェント大規模言語モデル(LLM)を利用する。
実験では、NeTestLLMはOSPF、RIP、BGPで4,632件のテストケースを生成し、41の歴史的FRRoutingバグを現在の国家標準で11件と比較した。
- 参考スコア(独自算出の注目度): 18.102379194660543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network protocol testing is fundamental for modern network infrastructure. However, traditional network protocol testing methods are labor-intensive and error-prone, requiring manual interpretation of specifications, test case design, and translation into executable artifacts, typically demanding one person-day of effort per test case. Existing model-based approaches provide partial automation but still involve substantial manual modeling and expert intervention, leading to high costs and limited adaptability to diverse and evolving protocols. In this paper, we propose a first-of-its-kind system called NeTestLLM that takes advantage of multi-agent Large Language Models (LLMs) for end-to-end automated network protocol testing. NeTestLLM employs hierarchical protocol understanding to capture complex specifications, iterative test case generation to improve coverage, a task-specific workflow for executable artifact generation, and runtime feedback analysis for debugging and refinement. NeTestLLM has been deployed in a production environment for several months, receiving positive feedback from domain experts. In experiments, NeTestLLM generated 4,632 test cases for OSPF, RIP, and BGP, covering 41 historical FRRouting bugs compared to 11 by current national standards. The process of generating executable artifacts also improves testing efficiency by a factor of 8.65x compared to manual methods. NeTestLLM provides the first practical LLM-powered solution for automated end-to-end testing of heterogeneous network protocols.
- Abstract(参考訳): ネットワークプロトコルテストは、現代のネットワークインフラの基本である。
しかしながら、従来のネットワークプロトコルテスト手法は労働集約的でエラーを起こしやすいため、仕様のマニュアル解釈、テストケースの設計、実行可能なアーティファクトへの変換が必要であり、典型的にはテストケースごとに1人1日ずつの作業を必要としている。
既存のモデルベースのアプローチは部分的な自動化を提供するが、それでもかなりの手作業によるモデリングと専門家による介入が伴い、高いコストと多様なプロトコルへの適応性が制限される。
本稿では,マルチエージェント大規模言語モデル(LLM)を利用して,エンドツーエンドの自動ネットワークプロトコルテストを行うNeTestLLMというシステムを提案する。
NeTestLLMでは、複雑な仕様をキャプチャするための階層的なプロトコル理解、カバレッジを改善するための反復的なテストケース生成、実行可能アーティファクト生成のためのタスク固有のワークフロー、デバッグと改善のためのランタイムフィードバック分析が採用されている。
NeTestLLMは、数ヶ月間、本番環境にデプロイされ、ドメインの専門家から肯定的なフィードバックを受けている。
実験では、NeTestLLMはOSPF、RIP、BGPで4,632件のテストケースを生成し、41の歴史的FRRoutingバグを現在の国家標準で11件と比較した。
実行可能なアーティファクトを生成するプロセスは、手作業による方法と比較して、テスト効率を8.65倍に向上させる。
NeTestLLMは、異種ネットワークプロトコルの自動エンドツーエンドテストのための、最初の実用的なLCMベースのソリューションを提供する。
関連論文リスト
- DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - iPanda: An LLM-based Agent for Automated Conformance Testing of Communication Protocols [11.749977502129898]
大きな言語モデル(LLM)は、印象的なテキスト理解とコード生成能力を示している。
プロトコル適合性テストを自動化するために LLM を利用した最初のフレームワークである iPanda を提案する。
様々なプロトコルの実験により、iPandaは純粋なLCMベースのアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-01T02:27:44Z) - PALM: Synergizing Program Analysis and LLMs to Enhance Rust Unit Test Coverage [14.702182387149547]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。
PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。
このアプローチを実装し、それを15のオープンソースのRustクラッドで評価します。
論文 参考訳(メタデータ) (2025-06-10T17:21:21Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:41:30Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Generalizable Metric Network for Cross-domain Person Re-identification [55.71632958027289]
クロスドメイン(ドメインの一般化)シーンは、Re-IDタスクにおいて課題となる。
既存のほとんどのメソッドは、すべてのドメインのドメイン不変またはロバストな機能を学ぶことを目的としています。
本稿では,サンプルペア空間における標本類似性を調べるために,GMN(Generalizable Metric Network)を提案する。
論文 参考訳(メタデータ) (2023-06-21T03:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。