論文の概要: Automated Soap Opera Testing Directed by LLMs and Scenario Knowledge: Feasibility, Challenges, and Road Ahead
- arxiv url: http://arxiv.org/abs/2412.08581v1
- Date: Wed, 11 Dec 2024 17:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:34.135000
- Title: Automated Soap Opera Testing Directed by LLMs and Scenario Knowledge: Feasibility, Challenges, and Road Ahead
- Title(参考訳): LLMとシナリオ知識による自動ソープ操作テスト - 実現可能性,課題,ロードアヘッド
- Authors: Yanqi Su, Zhenchang Xing, Chong Wang, Chunyang Chen, Xiwei Xu, Qinghua Lu, Liming Zhu,
- Abstract要約: 探索的テスト(ET)は、テスト担当者の知識、創造性、経験を活用して、予期せぬバグをエンドユーザの視点から発見するさまざまなテストを作成する。
自動シナリオベースET(ソープオペラテスト)の実現可能性,課題,道程について検討する。
- 参考スコア(独自算出の注目度): 43.15092098658384
- License:
- Abstract: Exploratory testing (ET) harnesses tester's knowledge, creativity, and experience to create varying tests that uncover unexpected bugs from the end-user's perspective. Although ET has proven effective in system-level testing of interactive systems, the need for manual execution has hindered large-scale adoption. In this work, we explore the feasibility, challenges and road ahead of automated scenario-based ET (a.k.a soap opera testing). We conduct a formative study, identifying key insights for effective manual soap opera testing and challenges in automating the process. We then develop a multi-agent system leveraging LLMs and a Scenario Knowledge Graph (SKG) to automate soap opera testing. The system consists of three multi-modal agents, Planner, Player, and Detector that collaborate to execute tests and identify potential bugs. Experimental results demonstrate the potential of automated soap opera testing, but there remains a significant gap compared to manual execution, especially under-explored scenario boundaries and incorrectly identified bugs. Based on the observation, we envision road ahead for the future of automated soap opera testing, focusing on three key aspects: the synergy of neural and symbolic approaches, human-AI co-learning, and the integration of soap opera testing with broader software engineering practices. These insights aim to guide and inspire the future research.
- Abstract(参考訳): 探索的テスト(ET)は、テスト担当者の知識、創造性、経験を活用して、予期せぬバグをエンドユーザの視点から発見するさまざまなテストを作成する。
ETは対話型システムのシステムレベルのテストに有効であることが証明されているが、手動実行の必要性は大規模な採用を妨げる。
本研究では,自動シナリオベースET(ソップオペラテスト)の実現可能性,課題,実現に向けての道程について検討する。
本研究は,手作業による手作業による歌劇テストにおいて重要な洞察とプロセス自動化の課題を抽出し,形式的な研究を行う。
LLMとSkenario Knowledge Graph(SKG)を利用したマルチエージェントシステムを構築し,ソープオペラテストを自動化する。
このシステムは3つのマルチモーダルエージェント、Planner, Player, Detectorで構成されており、テストの実行と潜在的なバグの特定に協力している。
実験結果から,自動ソープオペラテストの可能性が示されたが,手作業による実行よりも大きなギャップが残っている。
この観察に基づいて、我々は、ニューラルネットワークとシンボリックアプローチの相乗効果、人間とAIのコラーニング、より広範なソフトウェアエンジニアリングプラクティスとのソープオペラテストの統合という、3つの重要な側面に焦点を当てた、自動ソープオペラテストの将来に向けての道のりを構想する。
これらの洞察は、将来の研究をガイドし、刺激することを目的としている。
関連論文リスト
- AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。
このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。
私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文 参考訳(メタデータ) (2024-11-09T11:15:17Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。
本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文 参考訳(メタデータ) (2024-05-21T13:19:10Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - Can a Chatbot Support Exploratory Software Testing? Preliminary Results [0.9249657468385781]
探索テストはアジャイルチームにおける事実上のアプローチです。
本稿では,ソフトウェアアプリケーションの探索テストを実施しながらテスタを支援するBotExpTestを提案する。
インスタントメッセージングソーシャルプラットフォームであるDiscord上にBotExpTestを実装しました。
予備的な分析は、BotExpTestが同じようなアプローチと同じくらい効果的であることを示し、テスタがさまざまなバグを明らかにするのに役立つことを示唆している。
論文 参考訳(メタデータ) (2023-07-11T21:11:21Z) - Artificial Intelligence in Software Testing : Impact, Problems,
Challenges and Prospect [0.0]
この研究は、テストにAIを適用しながら、ソフトウェアテスタが直面する最も大きな課題を認識し、説明することを目的としている。
この記事では、ソフトウェアテストの分野におけるAIの今後の重要な貢献についても提案する。
論文 参考訳(メタデータ) (2022-01-14T10:21:51Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - Towards Human-Like Automated Test Generation: Perspectives from
Cognition and Problem Solving [13.541347853480705]
テスターの認知過程を特定するための認知科学に基づくフレームワークを提案する。
私たちの目標は、人間がテストケースを作成する方法を模倣し、人間のような自動テスト生成システムを設計することです。
論文 参考訳(メタデータ) (2021-03-08T13:43:55Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。