論文の概要: SAINT: Service-level Integration Test Generation with Program Analysis and LLM-based Agents
- arxiv url: http://arxiv.org/abs/2511.13305v1
- Date: Mon, 17 Nov 2025 12:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.205423
- Title: SAINT: Service-level Integration Test Generation with Program Analysis and LLM-based Agents
- Title(参考訳): SAINT: プログラム分析とLCMエージェントを用いたサービスレベルの統合テスト生成
- Authors: Rangeet Pan, Raju Pavuluri, Ruikai Huang, Rahul Krishna, Tyler Stennett, Alessandro Orso, Saurabh SInha,
- Abstract要約: SAINTは、エンタープライズJavaアプリケーションのサービスレベルのテストのための、新しいホワイトボックステストアプローチである。
SAINTは静的解析、大規模言語モデル(LLM)、LLMベースのエージェントを組み合わせて、エンドポイントとシナリオベースのテストを自動的に生成する。
- 参考スコア(独自算出の注目度): 43.3273990835497
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Enterprise applications are typically tested at multiple levels, with service-level testing playing an important role in validating application functionality. Existing service-level testing tools, especially for RESTful APIs, often employ fuzzing and/or depend on OpenAPI specifications which are not readily available in real-world enterprise codebases. Moreover, these tools are limited in their ability to generate functional tests that effectively exercise meaningful scenarios. In this work, we present SAINT, a novel white-box testing approach for service-level testing of enterprise Java applications. SAINT combines static analysis, large language models (LLMs), and LLM-based agents to automatically generate endpoint and scenario-based tests. The approach builds two key models: an endpoint model, capturing syntactic and semantic information about service endpoints, and an operation dependency graph, capturing inter-endpoint ordering constraints. SAINT then employs LLM-based agents to generate tests. Endpoint-focused tests aim to maximize code and database interaction coverage. Scenario-based tests are synthesized by extracting application use cases from code and refining them into executable tests via planning, action, and reflection phases of the agentic loop. We evaluated SAINT on eight Java applications, including a proprietary enterprise application. Our results illustrate the effectiveness of SAINT in coverage, fault detection, and scenario generation. Moreover, a developer survey provides strong endorsement of the scenario-based tests generated by SAINT. Overall, our work shows that combining static analysis with agentic LLM workflows enables more effective, functional, and developer-aligned service-level test generation.
- Abstract(参考訳): エンタープライズアプリケーションは一般的に複数のレベルでテストされ、サービスレベルのテストはアプリケーションの機能を検証する上で重要な役割を果たす。
既存のサービスレベルのテストツール、特にRESTful APIではファジングや/または実際のエンタープライズコードベースでは利用できないOpenAPI仕様に依存していることが多い。
さらに、これらのツールは意味のあるシナリオを効果的に実行するための機能テストを生成する能力に制限されている。
本稿では,エンタープライズJavaアプリケーションのサービスレベルのテストのための新しいホワイトボックステスト手法であるSAINTを紹介する。
SAINTは静的解析、大規模言語モデル(LLM)、LLMベースのエージェントを組み合わせて、エンドポイントとシナリオベースのテストを自動的に生成する。
このアプローチは2つの重要なモデルを構築している。エンドポイントモデル、サービスエンドポイントに関する構文情報とセマンティック情報、エンドポイント間の順序付け制約をキャプチャするオペレーション依存グラフだ。
SAINTはLLMベースのエージェントを使用してテストを生成する。
エンドポイントにフォーカスしたテストは、コードとデータベースのインタラクションカバレッジを最大化する。
シナリオベースのテストは、コードからアプリケーションユースケースを抽出し、エージェントループの計画、アクション、リフレクションフェーズを介して実行可能なテストに精製することで合成される。
プロプライエタリなエンタープライズアプリケーションを含む8つのJavaアプリケーション上でSAINTを評価しました。
以上の結果から, SAINTのカバレッジ, 障害検出, シナリオ生成における有効性について考察した。
さらに、開発者調査では、SAINTによって生成されたシナリオベースのテストを強く支持している。
全体としては、静的解析とエージェントLLMワークフローを組み合わせることで、より効率的で機能的で、開発者に準拠したサービスレベルのテスト生成が可能になります。
関連論文リスト
- Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。
3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。
実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文 参考訳(メタデータ) (2025-07-13T03:52:51Z) - AutoRestTest: A Tool for Automated REST API Testing Using LLMs and MARL [46.65963514391019]
AutoRestTestは、Semantic Property Dependency Graph(SPDG)とMARL(Multi-Agent Reinforcement Learning)と大規模言語モデル(LLM)を統合して、効果的なREST APIテストを可能にする新しいツールである。
論文 参考訳(メタデータ) (2025-01-15T05:54:33Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - LLM-based Unit Test Generation via Property Retrieval [26.906316611858518]
プロパティベースのRetrieval Augmentationは、基本的なベクトル、テキスト類似性、グラフベースのメソッドを超えてLLMベースのRetrieval-Augmented Generationを拡張する。
提案手法では,タスク固有のコンテキストを考慮し,プロパティ検索機構を導入している。
提案手法は,前処理,プロパティ検索,単体テスト生成を逐次実行するAPTと呼ばれるツールに実装する。
論文 参考訳(メタデータ) (2024-10-17T13:33:12Z) - ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。