Fugu-MT 論文翻訳(概要): Automated Soap Opera Testing Directed by LLMs and Scenario Knowledge: Feasibility, Challenges, and Road Ahead

論文の概要: Automated Soap Opera Testing Directed by LLMs and Scenario Knowledge: Feasibility, Challenges, and Road Ahead

arxiv url: http://arxiv.org/abs/2412.08581v1
Date: Wed, 11 Dec 2024 17:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.77103
Title: Automated Soap Opera Testing Directed by LLMs and Scenario Knowledge: Feasibility, Challenges, and Road Ahead
Title（参考訳）: LLMとシナリオ知識による自動ソープ操作テスト - 実現可能性,課題,ロードアヘッド
Authors: Yanqi Su, Zhenchang Xing, Chong Wang, Chunyang Chen, Xiwei Xu, Qinghua Lu, Liming Zhu,
Abstract要約: 探索的テスト(ET)は、テスト担当者の知識、創造性、経験を活用して、予期せぬバグをエンドユーザの視点から発見するさまざまなテストを作成する。自動シナリオベースET(ソープオペラテスト)の実現可能性,課題,道程について検討する。
参考スコア（独自算出の注目度）: 43.15092098658384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Exploratory testing (ET) harnesses tester's knowledge, creativity, and experience to create varying tests that uncover unexpected bugs from the end-user's perspective. Although ET has proven effective in system-level testing of interactive systems, the need for manual execution has hindered large-scale adoption. In this work, we explore the feasibility, challenges and road ahead of automated scenario-based ET (a.k.a soap opera testing). We conduct a formative study, identifying key insights for effective manual soap opera testing and challenges in automating the process. We then develop a multi-agent system leveraging LLMs and a Scenario Knowledge Graph (SKG) to automate soap opera testing. The system consists of three multi-modal agents, Planner, Player, and Detector that collaborate to execute tests and identify potential bugs. Experimental results demonstrate the potential of automated soap opera testing, but there remains a significant gap compared to manual execution, especially under-explored scenario boundaries and incorrectly identified bugs. Based on the observation, we envision road ahead for the future of automated soap opera testing, focusing on three key aspects: the synergy of neural and symbolic approaches, human-AI co-learning, and the integration of soap opera testing with broader software engineering practices. These insights aim to guide and inspire the future research.
Abstract（参考訳）: 探索的テスト(ET)は、テスト担当者の知識、創造性、経験を活用して、予期せぬバグをエンドユーザの視点から発見するさまざまなテストを作成する。 ETは対話型システムのシステムレベルのテストに有効であることが証明されているが、手動実行の必要性は大規模な採用を妨げる。本研究では,自動シナリオベースET(ソップオペラテスト)の実現可能性,課題,実現に向けての道程について検討する。本研究は,手作業による手作業による歌劇テストにおいて重要な洞察とプロセス自動化の課題を抽出し,形式的な研究を行う。 LLMとSkenario Knowledge Graph(SKG)を利用したマルチエージェントシステムを構築し,ソープオペラテストを自動化する。このシステムは3つのマルチモーダルエージェント、Planner, Player, Detectorで構成されており、テストの実行と潜在的なバグの特定に協力している。実験結果から,自動ソープオペラテストの可能性が示されたが,手作業による実行よりも大きなギャップが残っている。この観察に基づいて、我々は、ニューラルネットワークとシンボリックアプローチの相乗効果、人間とAIのコラーニング、より広範なソフトウェアエンジニアリングプラクティスとのソープオペラテストの統合という、3つの重要な側面に焦点を当てた、自動ソープオペラテストの将来に向けての道のりを構想する。これらの洞察は、将来の研究をガイドし、刺激することを目的としている。

関連論文リスト

Automated structural testing of LLM-based agents: methods, framework, and case studies [0.05254956925594667]
LLMベースのエージェントは、様々な領域で急速に採用されている。現在のテストアプローチは、ユーザの視点からの受け入れレベルの評価に重点を置いている。 LLMをベースとしたエージェントの構造試験を可能にする手法を提案する。
論文参考訳（メタデータ） (2026-01-25T11:52:30Z)
Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing [54.456400601801704]
A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を提案する。具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、マルチモーダルおよびマルチページインタラクションを実現する。モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
論文参考訳（メタデータ） (2026-01-08T03:33:43Z)
Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文参考訳（メタデータ） (2025-12-16T18:51:23Z)
AI Agents for Web Testing: A Case Study in the Wild [20.669140680308494]
本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。 URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。 120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
論文参考訳（メタデータ） (2025-09-05T15:57:16Z)
Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文参考訳（メタデータ） (2025-07-10T20:12:54Z)
TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework [4.802551205178858]
既存の大規模言語モデル(LLM)を支援または自動化した浸透テストアプローチは、しばしば非効率に悩まされる。 VulnBotは複雑なタスクを、偵察、スキャン、エクスプロイトという3つの特別なフェーズに分割する。主なデザインの特徴は、役割の専門化、侵入経路計画、エージェント間コミュニケーション、生成的侵入行動である。
論文参考訳（メタデータ） (2025-01-23T06:33:05Z)
AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文参考訳（メタデータ） (2024-11-09T11:15:17Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文参考訳（メタデータ） (2024-05-21T13:19:10Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Can a Chatbot Support Exploratory Software Testing? Preliminary Results [0.9249657468385781]
探索テストはアジャイルチームにおける事実上のアプローチです。本稿では,ソフトウェアアプリケーションの探索テストを実施しながらテスタを支援するBotExpTestを提案する。インスタントメッセージングソーシャルプラットフォームであるDiscord上にBotExpTestを実装しました。予備的な分析は、BotExpTestが同じようなアプローチと同じくらい効果的であることを示し、テスタがさまざまなバグを明らかにするのに役立つことを示唆している。
論文参考訳（メタデータ） (2023-07-11T21:11:21Z)
Artificial Intelligence in Software Testing : Impact, Problems, Challenges and Prospect [0.0]
この研究は、テストにAIを適用しながら、ソフトウェアテスタが直面する最も大きな課題を認識し、説明することを目的としている。この記事では、ソフトウェアテストの分野におけるAIの今後の重要な貢献についても提案する。
論文参考訳（メタデータ） (2022-01-14T10:21:51Z)
The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。 Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文参考訳（メタデータ） (2021-07-05T12:18:17Z)
Towards Human-Like Automated Test Generation: Perspectives from Cognition and Problem Solving [13.541347853480705]
テスターの認知過程を特定するための認知科学に基づくフレームワークを提案する。私たちの目標は、人間がテストケースを作成する方法を模倣し、人間のような自動テスト生成システムを設計することです。
論文参考訳（メタデータ） (2021-03-08T13:43:55Z)
Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-02-05T10:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。