論文の概要: Towards Automated Crowdsourced Testing via Personified-LLM
- arxiv url: http://arxiv.org/abs/2603.24160v1
- Date: Wed, 25 Mar 2026 10:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.247401
- Title: Towards Automated Crowdsourced Testing via Personified-LLM
- Title(参考訳): Personified-LLMによるクラウドソーシングテストの自動化に向けて
- Authors: Shengcheng Yu, Yuchen Ling, Chunrong Fang, Zhenyu Chen, Chunyang Chen,
- Abstract要約: 我々は、クラウドソースGUIテストを自動化するために設計された、新しいパーソナライズされたLLMベースのフレームワークであるPersonaTesterを紹介する。
我々は,PersonaTesterが実際のクラウドワーカーの行動パターンを忠実に再現し,強い個人内一貫性と明確な個人間変動を示すことを示した。
- 参考スコア(独自算出の注目度): 19.99410914727493
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid proliferation and increasing complexity of software demand robust quality assurance, with graphical user interface (GUI) testing playing a pivotal role. Crowdsourced testing has proven effective in this context by leveraging the diversity of human testers to achieve rich, scenario-based coverage across varied devices, user behaviors, and usage environments. In parallel, automated testing, particularly with the advent of large language models (LLMs), offers significant advantages in controllability, reproducibility, and efficiency, enabling scalable and systematic exploration. However, automated approaches often lack the behavioral diversity characteristic of human testers, limiting their capability to fully simulate real-world testing dynamics. To address this gap, we present PersonaTester, a novel personified-LLM-based framework designed to automate crowdsourced GUI testing. By injecting representative personas, defined along three orthogonal dimensions: testing mindset, exploration strategy, and interaction habit, into LLM-based agents, PersonaTester enables the simulation of diverse human-like testing behaviors in a controllable and repeatable manner. Experimental results demonstrate that PersonaTester faithfully reproduces the behavioral patterns of real crowdworkers, exhibiting strong intra-persona consistency and clear inter-persona variability (117.86% -- 126.23% improvement over the baseline). Moreover, persona-guided testing agents consistently generate more effective test events and trigger more crashes (100+) and functional bugs (11) than the baseline without persona, thus substantially advancing the realism and effectiveness of automated crowdsourced GUI testing.
- Abstract(参考訳): ソフトウェアの急速な普及と複雑さの増大は、グラフィカルユーザインタフェース(GUI)テストが重要な役割を果たすため、堅牢な品質保証を必要としている。
クラウドソーシングテストは、人間のテスタの多様性を活用して、さまざまなデバイス、ユーザ行動、使用環境にまたがるリッチでシナリオベースのカバレッジを実現することで、この状況で有効であることが証明されている。
並列的な自動テスト、特に大規模言語モデル(LLM)の出現は、可制御性、再現性、効率性において大きな利点をもたらし、スケーラブルで体系的な探索を可能にする。
しかしながら、自動化されたアプローチは人間のテスターの振る舞いの多様性に欠けることが多く、実際のテストのダイナミクスを完全にシミュレートする能力に制限される。
このギャップに対処するために、クラウドソースGUIテストを自動化するように設計された、新しいパーソナライズされたLLMベースのフレームワークであるPersonaTesterを紹介する。
テストマインドセット、探索戦略、相互作用習慣の3つの直交次元に沿って定義された代表的ペルソナをLSMベースのエージェントに注入することにより、PersonaTesterは、制御可能かつ繰り返し可能な方法で、多様な人間のようなテスト行動のシミュレーションを可能にする。
実験の結果、PersonaTesterは実際のクラウドワーカーの行動パターンを忠実に再現し、強い個人内一貫性と明確な個人間変動(ベースラインよりも117.86% -- 126.23%改善)を示した。
さらに、ペルソナ誘導テストエージェントは、一貫してより効果的なテストイベントを生成し、ペルソナのないベースラインよりもクラッシュ(100以上)と機能的バグ(11)を発生させ、自動クラウドソースGUIテストの現実性と効果を大幅に向上させる。
関連論文リスト
- Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Breaking Barriers in Software Testing: The Power of AI-Driven Automation [0.0]
本稿では、自然言語処理(NLP)、強化学習(RL)、予測モデルを用いたテストケース生成と検証を自動化するAI駆動フレームワークを提案する。
ケーススタディでは、欠陥の検出、テストの労力の削減、リリースサイクルの高速化が測定可能な向上を示している。
論文 参考訳(メタデータ) (2025-08-22T01:04:50Z) - TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - The Future of Software Testing: AI-Powered Test Case Generation and Validation [0.0]
本稿では、テストケースの生成と検証を改善する上で、AIが持つ変革の可能性について考察する。
テストプロセスの効率性、正確性、スケーラビリティを高める能力に重点を置いている。
また、高品質なトレーニングデータの必要性など、テストにAIを適用する際の重要な課題にも対処している。
論文 参考訳(メタデータ) (2024-09-09T17:12:40Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Towards Human-Like Automated Test Generation: Perspectives from
Cognition and Problem Solving [13.541347853480705]
テスターの認知過程を特定するための認知科学に基づくフレームワークを提案する。
私たちの目標は、人間がテストケースを作成する方法を模倣し、人間のような自動テスト生成システムを設計することです。
論文 参考訳(メタデータ) (2021-03-08T13:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。