Fugu-MT 論文翻訳(概要): iPanda: An Intelligent Protocol Testing and Debugging Agent for Conformance Testing

論文の概要: iPanda: An Intelligent Protocol Testing and Debugging Agent for Conformance Testing

arxiv url: http://arxiv.org/abs/2507.00378v1
Date: Tue, 01 Jul 2025 02:27:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.23113
Title: iPanda: An Intelligent Protocol Testing and Debugging Agent for Conformance Testing
Title（参考訳）: iPanda: コンパタンステストのためのインテリジェントなプロトコルテストとデバッグエージェント
Authors: Xikai Sun, Fan Dang, Kebin Liu, Xin Miao, Zihao Yang, Haimo Lu, Yawen Zheng, Yunhao Liu,
Abstract要約: 大きな言語モデル(LLM)は、印象的なテキスト理解とコード生成能力を示している。プロトコル適合性テストを自動化するためにLLMを利用する最初のエンドツーエンドフレームワークであるiPandaを提案する。
参考スコア（独自算出の注目度）: 8.126078892895848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conformance testing is essential for ensuring that protocol implementations comply with their specifications. However, traditional testing approaches involve manually creating numerous test cases and scripts, making the process labor-intensive and inefficient. Recently, Large Language Models (LLMs) have demonstrated impressive text comprehension and code generation abilities, providing promising opportunities for automation. In this paper, we propose iPanda, the first end-to-end framework that leverages LLMs to automate protocol conformance testing. Given a protocol specification document and its implementation, iPanda first employs a keyword-based method to automatically generate comprehensive test cases. Then, it utilizes a code-based retrieval-augmented generation approach to effectively interpret the implementation and produce executable test code. To further enhance code quality, iPanda incorporates an iterative self-correction mechanism to refine generated test scripts interactively. Finally, by executing and analyzing the generated tests, iPanda systematically verifies compliance between implementations and protocol specifications. Comprehensive experiments on various protocols show that iPanda significantly outperforms pure LLM-based approaches, improving the success rate (Pass@1) of test-code generation by factors ranging from 4.675 times to 10.751 times.
Abstract（参考訳）: プロトコル実装が仕様に準拠していることを保証するためには、適合性テストが不可欠である。しかしながら、従来のテストアプローチでは、多数のテストケースやスクリプトを手作業で作成する必要があり、プロセスは労働集約的で非効率になる。最近、Large Language Models (LLMs) は印象的なテキスト理解とコード生成能力を示し、自動化のための有望な機会を提供している。本稿では,LLMを利用してプロトコル適合性テストを自動化する,最初のエンドツーエンドフレームワークであるiPandaを提案する。プロトコル仕様文書とその実装を前提として、iPandaはまずキーワードベースのメソッドを使用して包括的なテストケースを自動的に生成する。そして、コードに基づく検索拡張生成手法を用いて、実装を効果的に解釈し、実行可能なテストコードを生成する。コード品質をさらに向上するため、iPandaはインタラクティブに生成されたテストスクリプトを洗練するための反復的な自己訂正機構を組み込んでいる。最後に、生成されたテストを実行および分析することにより、iPandaは実装とプロトコル仕様間のコンプライアンスを体系的に検証する。様々なプロトコルに関する総合的な実験により、iPandaは純粋なLCMベースのアプローチを著しく上回り、テストコード生成の成功率(Pass@1)を4.675倍から10.751倍に改善した。

関連論文リスト

LLM-Assisted Model-Based Fuzzing of Protocol Implementations [9.512044399020514]
プロトコル動作の障害は脆弱性やシステム障害につながる可能性がある。プロトコルテストに対する一般的なアプローチは、プロトコルの状態遷移と期待される振る舞いをキャプチャするマルコフモデルを構築することである。本稿では,大規模言語モデル(LLM)を利用して,ネットワークプロトコルの実装をテストするためのシーケンスを自動的に生成する手法を提案する。
論文参考訳（メタデータ） (2025-08-03T13:16:18Z)
Private GPTs for LLM-driven testing in software development and machine learning [0.0]
要求に基づいて実行可能なテストコードを自動的に生成する,プライベートGPTの能力について検討する。私たちは受け入れ基準を入力として使用し、エピックやストーリーの一部として定式化します。
論文参考訳（メタデータ） (2025-06-06T20:05:41Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。パラメータは7Bから405Bまで様々である。
論文参考訳（メタデータ） (2024-10-01T14:47:05Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Automating REST API Postman Test Cases Using LLM [0.0]
本稿では,大規模言語モデルを用いたテストケースの自動生成手法の探索と実装について述べる。この方法論は、テストケース生成の効率性と有効性を高めるために、Open AIの使用を統合する。この研究で開発されたモデルは、手作業で収集したポストマンテストケースやさまざまなRest APIのインスタンスを使ってトレーニングされている。
論文参考訳（メタデータ） (2024-04-16T15:53:41Z)
DT-SIM: Property-Based Testing for MPC Security [2.0308771704846245]
プロパティベースのテストはセキュアプロトコルのセキュリティバグの検出に有効である。セキュアマルチパーティ計算(MPC)を特に対象とする。 MPCプロトコルのビットレベル実装において,様々な欠陥を検出するテストを作成する。
論文参考訳（メタデータ） (2024-03-08T02:02:24Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)
Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文参考訳（メタデータ） (2022-08-11T17:41:08Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。