論文の概要: iPanda: An Intelligent Protocol Testing and Debugging Agent for Conformance Testing
- arxiv url: http://arxiv.org/abs/2507.00378v1
- Date: Tue, 01 Jul 2025 02:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.23113
- Title: iPanda: An Intelligent Protocol Testing and Debugging Agent for Conformance Testing
- Title(参考訳): iPanda: コンパタンステストのためのインテリジェントなプロトコルテストとデバッグエージェント
- Authors: Xikai Sun, Fan Dang, Kebin Liu, Xin Miao, Zihao Yang, Haimo Lu, Yawen Zheng, Yunhao Liu,
- Abstract要約: 大きな言語モデル(LLM)は、印象的なテキスト理解とコード生成能力を示している。
プロトコル適合性テストを自動化するためにLLMを利用する最初のエンドツーエンドフレームワークであるiPandaを提案する。
- 参考スコア(独自算出の注目度): 8.126078892895848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conformance testing is essential for ensuring that protocol implementations comply with their specifications. However, traditional testing approaches involve manually creating numerous test cases and scripts, making the process labor-intensive and inefficient. Recently, Large Language Models (LLMs) have demonstrated impressive text comprehension and code generation abilities, providing promising opportunities for automation. In this paper, we propose iPanda, the first end-to-end framework that leverages LLMs to automate protocol conformance testing. Given a protocol specification document and its implementation, iPanda first employs a keyword-based method to automatically generate comprehensive test cases. Then, it utilizes a code-based retrieval-augmented generation approach to effectively interpret the implementation and produce executable test code. To further enhance code quality, iPanda incorporates an iterative self-correction mechanism to refine generated test scripts interactively. Finally, by executing and analyzing the generated tests, iPanda systematically verifies compliance between implementations and protocol specifications. Comprehensive experiments on various protocols show that iPanda significantly outperforms pure LLM-based approaches, improving the success rate (Pass@1) of test-code generation by factors ranging from 4.675 times to 10.751 times.
- Abstract(参考訳): プロトコル実装が仕様に準拠していることを保証するためには、適合性テストが不可欠である。
しかしながら、従来のテストアプローチでは、多数のテストケースやスクリプトを手作業で作成する必要があり、プロセスは労働集約的で非効率になる。
最近、Large Language Models (LLMs) は印象的なテキスト理解とコード生成能力を示し、自動化のための有望な機会を提供している。
本稿では,LLMを利用してプロトコル適合性テストを自動化する,最初のエンドツーエンドフレームワークであるiPandaを提案する。
プロトコル仕様文書とその実装を前提として、iPandaはまずキーワードベースのメソッドを使用して包括的なテストケースを自動的に生成する。
そして、コードに基づく検索拡張生成手法を用いて、実装を効果的に解釈し、実行可能なテストコードを生成する。
コード品質をさらに向上するため、iPandaはインタラクティブに生成されたテストスクリプトを洗練するための反復的な自己訂正機構を組み込んでいる。
最後に、生成されたテストを実行および分析することにより、iPandaは実装とプロトコル仕様間のコンプライアンスを体系的に検証する。
様々なプロトコルに関する総合的な実験により、iPandaは純粋なLCMベースのアプローチを著しく上回り、テストコード生成の成功率(Pass@1)を4.675倍から10.751倍に改善した。
関連論文リスト
- Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:41:30Z) - DT-SIM: Property-Based Testing for MPC Security [2.0308771704846245]
プロパティベースのテストはセキュアプロトコルのセキュリティバグの検出に有効である。
セキュアマルチパーティ計算(MPC)を特に対象とする。
MPCプロトコルのビットレベル実装において,様々な欠陥を検出するテストを作成する。
論文 参考訳(メタデータ) (2024-03-08T02:02:24Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。