論文の概要: Breaking Single-Tester Limits: Multi-Agent LLMs for Multi-User Feature Testing
- arxiv url: http://arxiv.org/abs/2506.17539v1
- Date: Sat, 21 Jun 2025 01:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.463804
- Title: Breaking Single-Tester Limits: Multi-Agent LLMs for Multi-User Feature Testing
- Title(参考訳): シングルテスタの限界を突破する - マルチユーザ機能テストのためのマルチエージェントLLM
- Authors: Sidong Feng, Changhao Du, Huaxiao Liu, Qingnan Wang, Zhengwei Lv, Mengfei Wang, Chunyang Chen,
- Abstract要約: アプリケーション機能テストのためのマルチユーザ対話タスクを自動化するために,LLM(Large Language Models)を利用した新しいマルチエージェントアプローチであるMAdroidを提案する。
具体的には、MAdroidは、ユーザエージェント(オペレータ)とスーパーバイザーエージェント(コーディネータとオブザーバ)の2つの機能タイプを採用している。
マルチユーザ対話型タスク41件を含む評価は,96.8%の動作類似性を有するタスクの82.9%を達成し,提案手法の有効性を示した。
- 参考スコア(独自算出の注目度): 22.10696272175415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing dependence on mobile phones and their apps has made multi-user interactive features, like chat calls, live streaming, and video conferencing, indispensable for bridging the gaps in social connectivity caused by physical and situational barriers. However, automating these interactive features for testing is fraught with challenges, owing to their inherent need for timely, dynamic, and collaborative user interactions, which current automated testing methods inadequately address. Inspired by the concept of agents designed to autonomously and collaboratively tackle problems, we propose MAdroid, a novel multi-agent approach powered by the Large Language Models (LLMs) to automate the multi-user interactive task for app feature testing. Specifically, MAdroid employs two functional types of multi-agents: user agents (Operator) and supervisor agents (Coordinator and Observer). Each agent takes a specific role: the Coordinator directs the interactive task; the Operator mimics user interactions on the device; and the Observer monitors and reviews the task automation process. Our evaluation, which included 41 multi-user interactive tasks, demonstrates the effectiveness of our approach, achieving 82.9% of the tasks with 96.8% action similarity, outperforming the ablation studies and state-of-the-art baselines. Additionally, a preliminary investigation underscores MAdroid's practicality by helping identify 11 multi-user interactive bugs during regression app testing, confirming its potential value in real-world software development contexts.
- Abstract(参考訳): 携帯電話やアプリへの依存度が高まっているため、チャット通話、ライブストリーミング、ビデオ会議といったマルチユーザーインタラクティブな機能は、物理的および状況的障壁によって引き起こされるソーシャル接続のギャップを埋めるのに不可欠である。
しかしながら、これらのインタラクティブな機能をテストのために自動化することは、現在の自動テストメソッドが不十分に対処する、時間的、動的、協調的なユーザインタラクションを必要とするため、課題に悩まされている。
問題に自律的かつ協調的に取り組むように設計されたエージェントの概念に触発されて,アプリケーション機能テストのためのマルチユーザ対話タスクを自動化するために,LLM(Large Language Models)を利用した新しいマルチエージェントアプローチであるMAdroidを提案する。
具体的には、MAdroidは、ユーザエージェント(Operator)とスーパーバイザーエージェント(CoordinatorとObserver)の2つの機能タイプを採用している。
各エージェントは特定の役割を担い、コーディネータはインタラクティブなタスクを指示し、オペレータはデバイス上のユーザインタラクションを模倣し、Observerはタスク自動化プロセスを監視してレビューする。
提案手法の有効性を実証し,96.8%の動作類似性を有するタスクの82.9%を達成し,アブレーション研究や最先端のベースラインを上回る結果を得た。
さらに、予備調査では、レグレッションアプリのテスト中に11人のマルチユーザインタラクティブなバグを特定し、実際のソフトウェア開発コンテキストにおける潜在的な価値を確認することで、Madroidの実用性を強調している。
関連論文リスト
- Agent for User: Testing Multi-User Interactive Features in TikTok [25.10099707365039]
マルチユーザ対話型アプリ機能のテストを自動化するために,LLM(Large Language Models)を利用した新しいマルチエージェント手法を提案する。
仮想デバイスファームを構築し、所定のマルチユーザ対話タスクに必要なデバイス数を割り当てる。
各デバイスに対して、ユーザをシミュレートするLCMベースのエージェントをデプロイし、ユーザインタラクションを模倣する。
論文 参考訳(メタデータ) (2025-04-21T22:50:31Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。
関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文 参考訳(メタデータ) (2024-09-27T08:17:53Z) - AutoAgents: A Framework for Automatic Agent Generation [27.74332323317923]
AutoAgentsは、さまざまなタスクに応じてAIチームを構築するために、複数の専門エージェントを適応的に生成し、コーディネートする革新的なフレームワークである。
各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
論文 参考訳(メタデータ) (2023-09-29T14:46:30Z) - MUG: Interactive Multimodal Grounding on User Interfaces [12.035123646959669]
本稿では,ユーザとエージェントがインタフェース画面上で協調作業を行うマルチモーダルグラウンドのための対話型タスクMUGを提案する。
ユーザがコマンドを与え、エージェントがコマンドに応答する。MUGはエージェントの応答を見る際に、エージェントがそのアクションを洗練または修正するための追加コマンドを与えるように、複数のラウンドのインタラクションを可能にする。
論文 参考訳(メタデータ) (2022-09-29T21:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。