論文の概要: XUAT-Copilot: Multi-Agent Collaborative System for Automated User
Acceptance Testing with Large Language Model
- arxiv url: http://arxiv.org/abs/2401.02705v2
- Date: Wed, 10 Jan 2024 12:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 16:16:09.492727
- Title: XUAT-Copilot: Multi-Agent Collaborative System for Automated User
Acceptance Testing with Large Language Model
- Title(参考訳): XUAT-Copilot:大規模言語モデルを用いたユーザ受け入れ自動テストのためのマルチエージェント協調システム
- Authors: Zhitao Wang, Wei Wang, Zirao Li, Long Wang, Can Yi, Xinjie Xu, Luyang
Cao, Hanjing Su, Shouzhi Chen, Jun Zhou
- Abstract要約: 自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。
提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。
実験では,Pass@1の精度を単エージェントアーキテクチャと比較して大幅に向上した。
- 参考スコア(独自算出の注目度): 9.05375318147931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In past years, we have been dedicated to automating user acceptance testing
(UAT) process of WeChat Pay, one of the most influential mobile payment
applications in China. A system titled XUAT has been developed for this
purpose. However, there is still a human-labor-intensive stage, i.e, test
scripts generation, in the current system. Therefore, in this paper, we
concentrate on methods of boosting the automation level of the current system,
particularly the stage of test scripts generation. With recent notable
successes, large language models (LLMs) demonstrate significant potential in
attaining human-like intelligence and there has been a growing research area
that employs LLMs as autonomous agents to obtain human-like decision-making
capabilities. Inspired by these works, we propose an LLM-powered multi-agent
collaborative system, named XUAT-Copilot, for automated UAT. The proposed
system mainly consists of three LLM-based agents responsible for action
planning, state checking and parameter selecting, respectively, and two
additional modules for state sensing and case rewriting. The agents interact
with testing device, make human-like decision and generate action command in a
collaborative way. The proposed multi-agent system achieves a close
effectiveness to human testers in our experimental studies and gains a
significant improvement of Pass@1 accuracy compared with single-agent
architecture. More importantly, the proposed system has launched in the formal
testing environment of WeChat Pay mobile app, which saves a considerable amount
of manpower in the daily development work.
- Abstract(参考訳): ここ数年,中国で最も影響力のあるモバイル決済アプリケーションのひとつであるWeChat Payのユーザ受け入れテスト(UAT)プロセスの自動化に注力してきました。
この目的のためにXUATというシステムを開発した。
しかし、現在のシステムでは、テストスクリプト生成という、人間の作業集約的な段階がまだ残っている。
そこで本研究では,現在のシステム,特にテストスクリプト生成の段階において,自動化レベルを向上する手法に焦点を当てる。
近年の顕著な成功により、大きな言語モデル(LLM)は人間のような知性を達成する上で大きな可能性を示しており、LLMを自律的なエージェントとして活用して人間のような意思決定能力を得る研究領域が増えている。
これらの成果に触発されて,自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。
提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。
エージェントはテストデバイスと対話し、人間のような意思決定を行い、協調的にアクションコマンドを生成する。
提案するマルチエージェントシステムは,実験において人間のテスタに密接な効果をもたらし,単一エージェントアーキテクチャと比較してpass@1精度を大幅に向上させる。
さらに重要なのは、WeChat Payモバイルアプリの正式なテスト環境で提案されたシステムがローンチされたことだ。
関連論文リスト
- Benchmarking Mobile Device Control Agents across Diverse Configurations [21.164023091324523]
B-MoCAは、モバイルデバイス制御エージェントを評価するための新しいベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントや,人間の専門家によるデモンストレーションを用いたゼロから訓練されたエージェントなど,多様なエージェントをベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - EHRAgent: Code Empowers Large Language Models for Few-shot Complex
Tabular Reasoning on Electronic Health Records [48.9788858020623]
大規模言語モデル(LLM)は、計画とツールの利用において例外的な能力を示した。
コードインタフェースを備えたLLMエージェントであるEHRAgentを提案し,マルチタブラル推論のためのコードの自動生成と実行を行う。
論文 参考訳(メタデータ) (2024-01-13T18:09:05Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - ProAgent: From Robotic Process Automation to Agentic Process Automation [87.0555252338361]
LLM(Large Language Models)は、人間のような知性を持つ言語である。
本稿では,ALMをベースとしたエージェントを用いた高度な自動化のための基盤的自動化パラダイムであるエージェントプロセス自動化(APA)を紹介する。
そして、人間の指示を駆使し、特殊エージェントの調整によって複雑な決定を下すように設計されたエージェントであるProAgentをインスタンス化する。
論文 参考訳(メタデータ) (2023-11-02T14:32:16Z) - User Simulation with Large Language Models for Evaluating Task-Oriented
Dialogue [10.336443286833145]
本稿では,最近開発された大規模事前学習言語モデル(LLM)を用いた新しいユーザシミュレータを提案する。
シミュレーション性能の主指標としてゴール成功率(GSR)を最大化しようとする従来の研究とは異なり,本研究の目的は,TODシステムとのヒューマンインタラクションで観測されるようなGSRを実現するシステムである。
論文 参考訳(メタデータ) (2023-09-23T02:04:57Z) - MAMBPO: Sample-efficient multi-robot reinforcement learning using
learned world models [4.84279798426797]
マルチロボットシステムは、少数の試験で行動を学ぶ強化学習(RL)アルゴリズムの恩恵を受けることができます。
マルチエージェントモデルベースポリシー最適化(MAMBPO)という新しいマルチエージェントモデルベースRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-05T13:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。