論文の概要: XUAT-Copilot: Multi-Agent Collaborative System for Automated User
Acceptance Testing with Large Language Model
- arxiv url: http://arxiv.org/abs/2401.02705v2
- Date: Wed, 10 Jan 2024 12:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 16:16:09.492727
- Title: XUAT-Copilot: Multi-Agent Collaborative System for Automated User
Acceptance Testing with Large Language Model
- Title(参考訳): XUAT-Copilot:大規模言語モデルを用いたユーザ受け入れ自動テストのためのマルチエージェント協調システム
- Authors: Zhitao Wang, Wei Wang, Zirao Li, Long Wang, Can Yi, Xinjie Xu, Luyang
Cao, Hanjing Su, Shouzhi Chen, Jun Zhou
- Abstract要約: 自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。
提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。
実験では,Pass@1の精度を単エージェントアーキテクチャと比較して大幅に向上した。
- 参考スコア(独自算出の注目度): 9.05375318147931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In past years, we have been dedicated to automating user acceptance testing
(UAT) process of WeChat Pay, one of the most influential mobile payment
applications in China. A system titled XUAT has been developed for this
purpose. However, there is still a human-labor-intensive stage, i.e, test
scripts generation, in the current system. Therefore, in this paper, we
concentrate on methods of boosting the automation level of the current system,
particularly the stage of test scripts generation. With recent notable
successes, large language models (LLMs) demonstrate significant potential in
attaining human-like intelligence and there has been a growing research area
that employs LLMs as autonomous agents to obtain human-like decision-making
capabilities. Inspired by these works, we propose an LLM-powered multi-agent
collaborative system, named XUAT-Copilot, for automated UAT. The proposed
system mainly consists of three LLM-based agents responsible for action
planning, state checking and parameter selecting, respectively, and two
additional modules for state sensing and case rewriting. The agents interact
with testing device, make human-like decision and generate action command in a
collaborative way. The proposed multi-agent system achieves a close
effectiveness to human testers in our experimental studies and gains a
significant improvement of Pass@1 accuracy compared with single-agent
architecture. More importantly, the proposed system has launched in the formal
testing environment of WeChat Pay mobile app, which saves a considerable amount
of manpower in the daily development work.
- Abstract(参考訳): ここ数年,中国で最も影響力のあるモバイル決済アプリケーションのひとつであるWeChat Payのユーザ受け入れテスト(UAT)プロセスの自動化に注力してきました。
この目的のためにXUATというシステムを開発した。
しかし、現在のシステムでは、テストスクリプト生成という、人間の作業集約的な段階がまだ残っている。
そこで本研究では,現在のシステム,特にテストスクリプト生成の段階において,自動化レベルを向上する手法に焦点を当てる。
近年の顕著な成功により、大きな言語モデル(LLM)は人間のような知性を達成する上で大きな可能性を示しており、LLMを自律的なエージェントとして活用して人間のような意思決定能力を得る研究領域が増えている。
これらの成果に触発されて,自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。
提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。
エージェントはテストデバイスと対話し、人間のような意思決定を行い、協調的にアクションコマンドを生成する。
提案するマルチエージェントシステムは,実験において人間のテスタに密接な効果をもたらし,単一エージェントアーキテクチャと比較してpass@1精度を大幅に向上させる。
さらに重要なのは、WeChat Payモバイルアプリの正式なテスト環境で提案されたシステムがローンチされたことだ。
関連論文リスト
- ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding [9.921932789361732]
本稿では,アプリケーション指向シナリオにおけるシステム進歩を測定するための新しい評価データセットProMQAを提案する。
ProMQAは401のマルチモーダルプロシージャQAペアから構成され、プロシージャアクティビティのユーザ記録とそれに対応する命令が組み合わされている。
論文 参考訳(メタデータ) (2024-10-29T16:39:28Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
SPA-Benchは3つの重要なコントリビューションを提供している。 英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。
複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor [10.776483342326904]
本研究では,知的店舗用大規模言語モデル(LLM)多エージェント製造システムを提案する。
このシステムは多様なエージェントを記述し、それらのメソッドを定義する。
BAとBIAの交渉は、製造資源をつなぐ上で最も重要なステップである。
論文 参考訳(メタデータ) (2024-05-27T07:10:04Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - ProAgent: From Robotic Process Automation to Agentic Process Automation [87.0555252338361]
LLM(Large Language Models)は、人間のような知性を持つ言語である。
本稿では,ALMをベースとしたエージェントを用いた高度な自動化のための基盤的自動化パラダイムであるエージェントプロセス自動化(APA)を紹介する。
そして、人間の指示を駆使し、特殊エージェントの調整によって複雑な決定を下すように設計されたエージェントであるProAgentをインスタンス化する。
論文 参考訳(メタデータ) (2023-11-02T14:32:16Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - User Simulation with Large Language Models for Evaluating Task-Oriented
Dialogue [10.336443286833145]
本稿では,最近開発された大規模事前学習言語モデル(LLM)を用いた新しいユーザシミュレータを提案する。
シミュレーション性能の主指標としてゴール成功率(GSR)を最大化しようとする従来の研究とは異なり,本研究の目的は,TODシステムとのヒューマンインタラクションで観測されるようなGSRを実現するシステムである。
論文 参考訳(メタデータ) (2023-09-23T02:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。