Fugu-MT 論文翻訳(概要): XUAT-Copilot: Multi-Agent Collaborative System for Automated User Acceptance Testing with Large Language Model

論文の概要: XUAT-Copilot: Multi-Agent Collaborative System for Automated User Acceptance Testing with Large Language Model

arxiv url: http://arxiv.org/abs/2401.02705v2
Date: Wed, 10 Jan 2024 12:08:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 16:16:09.492727
Title: XUAT-Copilot: Multi-Agent Collaborative System for Automated User Acceptance Testing with Large Language Model
Title（参考訳）: XUAT-Copilot:大規模言語モデルを用いたユーザ受け入れ自動テストのためのマルチエージェント協調システム
Authors: Zhitao Wang, Wei Wang, Zirao Li, Long Wang, Can Yi, Xinjie Xu, Luyang Cao, Hanjing Su, Shouzhi Chen, Jun Zhou
Abstract要約: 自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。実験では,Pass@1の精度を単エージェントアーキテクチャと比較して大幅に向上した。
参考スコア（独自算出の注目度）: 9.05375318147931
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In past years, we have been dedicated to automating user acceptance testing (UAT) process of WeChat Pay, one of the most influential mobile payment applications in China. A system titled XUAT has been developed for this purpose. However, there is still a human-labor-intensive stage, i.e, test scripts generation, in the current system. Therefore, in this paper, we concentrate on methods of boosting the automation level of the current system, particularly the stage of test scripts generation. With recent notable successes, large language models (LLMs) demonstrate significant potential in attaining human-like intelligence and there has been a growing research area that employs LLMs as autonomous agents to obtain human-like decision-making capabilities. Inspired by these works, we propose an LLM-powered multi-agent collaborative system, named XUAT-Copilot, for automated UAT. The proposed system mainly consists of three LLM-based agents responsible for action planning, state checking and parameter selecting, respectively, and two additional modules for state sensing and case rewriting. The agents interact with testing device, make human-like decision and generate action command in a collaborative way. The proposed multi-agent system achieves a close effectiveness to human testers in our experimental studies and gains a significant improvement of Pass@1 accuracy compared with single-agent architecture. More importantly, the proposed system has launched in the formal testing environment of WeChat Pay mobile app, which saves a considerable amount of manpower in the daily development work.
Abstract（参考訳）: ここ数年,中国で最も影響力のあるモバイル決済アプリケーションのひとつであるWeChat Payのユーザ受け入れテスト(UAT)プロセスの自動化に注力してきました。この目的のためにXUATというシステムを開発した。しかし、現在のシステムでは、テストスクリプト生成という、人間の作業集約的な段階がまだ残っている。そこで本研究では,現在のシステム,特にテストスクリプト生成の段階において,自動化レベルを向上する手法に焦点を当てる。近年の顕著な成功により、大きな言語モデル(LLM)は人間のような知性を達成する上で大きな可能性を示しており、LLMを自律的なエージェントとして活用して人間のような意思決定能力を得る研究領域が増えている。これらの成果に触発されて,自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。エージェントはテストデバイスと対話し、人間のような意思決定を行い、協調的にアクションコマンドを生成する。提案するマルチエージェントシステムは,実験において人間のテスタに密接な効果をもたらし,単一エージェントアーキテクチャと比較してpass@1精度を大幅に向上させる。さらに重要なのは、WeChat Payモバイルアプリの正式なテスト環境で提案されたシステムがローンチされたことだ。

関連論文リスト

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文参考訳（メタデータ） (2026-02-03T19:18:28Z)
How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文参考訳（メタデータ） (2025-10-10T19:04:28Z)
xOffense: An AI-driven autonomous penetration testing framework with offensive knowledge-enhanced LLMs and multi agent systems [0.402058998065435]
xOffenseはAI駆動のマルチエージェント浸透テストフレームワークである。プロセスは、労働集約的で専門家主導のマニュアル作業から、完全に自動化され、マシン実行可能なスケーリングへと、計算インフラストラクチャとシームレスに移行します。
論文参考訳（メタデータ） (2025-09-16T12:45:45Z)
MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines [23.407716896592383]
本稿では,マルチエージェントシステムの自動生成が可能な有限状態マシンベースのフレームワークを提案する。タスク記述を前提として、MetaAgentはマルチエージェントシステムを設計し、最適化アルゴリズムによってそれを洗練する。マルチエージェントシステムがデプロイされると、有限状態マシンがエージェントのアクションと状態遷移を制御する。
論文参考訳（メタデータ） (2025-07-30T12:22:30Z)
AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis [0.0]
本稿では,A2AとMPPを自己実装した新しいモジュール型マルチプロトコールMASフレームワークであるAgentMasterの試験的検討を行う。このシステムは、先行技術知識のない自然言語インタラクションをサポートし、情報検索、質問応答、画像解析を含むタスクに対するマルチモーダルクエリに応答する。全体として、提案するフレームワークは、MASを利用したドメイン固有、協調的、スケーラブルな対話型AIの可能性に寄与する。
論文参考訳（メタデータ） (2025-07-08T03:34:26Z)
R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。 R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文参考訳（メタデータ） (2025-05-20T06:07:00Z)
Autonomous Microscopy Experiments through Large Language Model Agents [4.241267255764773]
大規模言語モデル(LLM)は、材料研究のための自動運転研究所(SDL)の開発を加速させた。本稿では,原子間力顕微鏡(AFM)を自動化するフレームワークであるAILA(Artificially Intelligent Lab Assistant)を紹介する。我々の体系的な評価は、最先端の言語モデルがドキュメント検索のような基本的なタスクに悩まされていることを示している。
論文参考訳（メタデータ） (2024-12-18T09:35:28Z)
ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding [9.921932789361732]
本稿では,アプリケーション指向シナリオにおけるシステム進歩を測定するための新しい評価データセットProMQAを提案する。 ProMQAは401のマルチモーダルプロシージャQAペアから構成され、プロシージャアクティビティのユーザ記録とそれに対応する命令が組み合わされている。
論文参考訳（メタデータ） (2024-10-29T16:39:28Z)
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。 SPA-Benchは3つの重要なコントリビューションを提供している。英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文参考訳（メタデータ） (2024-10-19T17:28:48Z)
Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文参考訳（メタデータ） (2024-10-16T08:24:09Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文参考訳（メタデータ） (2024-10-04T08:24:15Z)
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。 ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。 ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。 EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-06-20T11:49:23Z)
A Large Language Model-based multi-agent manufacturing system for intelligent shopfloor [10.776483342326904]
本研究では,知的店舗用大規模言語モデル(LLM)多エージェント製造システムを提案する。このシステムは多様なエージェントを記述し、それらのメソッドを定義する。 BAとBIAの交渉は、製造資源をつなぐ上で最も重要なステップである。
論文参考訳（メタデータ） (2024-05-27T07:10:04Z)
Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-25T14:56:32Z)
SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文参考訳（メタデータ） (2024-01-08T15:01:08Z)
ProAgent: From Robotic Process Automation to Agentic Process Automation [87.0555252338361]
LLM(Large Language Models)は、人間のような知性を持つ言語である。本稿では,ALMをベースとしたエージェントを用いた高度な自動化のための基盤的自動化パラダイムであるエージェントプロセス自動化(APA)を紹介する。そして、人間の指示を駆使し、特殊エージェントの調整によって複雑な決定を下すように設計されたエージェントであるProAgentをインスタンス化する。
論文参考訳（メタデータ） (2023-11-02T14:32:16Z)
A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文参考訳（メタデータ） (2023-10-03T16:05:48Z)
User Simulation with Large Language Models for Evaluating Task-Oriented Dialogue [10.336443286833145]
本稿では,最近開発された大規模事前学習言語モデル(LLM)を用いた新しいユーザシミュレータを提案する。シミュレーション性能の主指標としてゴール成功率(GSR)を最大化しようとする従来の研究とは異なり,本研究の目的は,TODシステムとのヒューマンインタラクションで観測されるようなGSRを実現するシステムである。
論文参考訳（メタデータ） (2023-09-23T02:04:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。