Fugu-MT 論文翻訳(概要): Multi-Agent LLM Committees for Autonomous Software Beta Testing

論文の概要: Multi-Agent LLM Committees for Autonomous Software Beta Testing

arxiv url: http://arxiv.org/abs/2512.21352v1
Date: Sun, 21 Dec 2025 02:06:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-29 20:48:41.751922
Title: Multi-Agent LLM Committees for Autonomous Software Beta Testing
Title（参考訳）: 自律型ソフトウェアベータテストのためのマルチエージェントLDM委員会
Authors: Sumanth Bharadwaj Hachalli Karanam, Dhiwahar Adhithya Kennady,
Abstract要約: このフレームワークは、モデルの多様性、ペルソナ駆動の振る舞いの変化、視覚的ユーザインターフェイスの理解を組み合わせたものだ。視覚対応エージェントは、ナビゲーションとレポートによってユーザインターフェース要素を100%成功させることに成功した。このフレームワークは、CI/CDパイプラインにおけるLLMベースのソフトウェアテストの再現可能な研究と実践的な展開を可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Manual software beta testing is costly and time-consuming, while single-agent large language model (LLM) approaches suffer from hallucinations and inconsistent behavior. We propose a multi-agent committee framework in which diverse vision-enabled LLMs collaborate through a three-round voting protocol to reach consensus on testing actions. The framework combines model diversity, persona-driven behavioral variation, and visual user interface understanding to systematically explore web applications. Across 84 experimental runs with 9 testing personas and 4 scenarios, multi-agent committees achieve an 89.5 percent overall task success rate. Configurations with 2 to 4 agents reach 91.7 to 100 percent success, compared to 78.0 percent for single-agent baselines, yielding improvements of 13.7 to 22.0 percentage points. At the action level, the system attains a 93.1 percent success rate with a median per-action latency of 0.71 seconds, enabling real-time and continuous integration testing. Vision-enabled agents successfully identify user interface elements, with navigation and reporting achieving 100 percent success and form filling achieving 99.2 percent success. We evaluate the framework on WebShop and OWASP benchmarks, achieving 74.7 percent success on WebShop compared to a 50.1 percent published GPT-3 baseline, and 82.0 percent success on OWASP Juice Shop security testing with coverage of 8 of the 10 OWASP Top 10 vulnerability categories. Across 20 injected regressions, the committee achieves an F1 score of 0.91 for bug detection, compared to 0.78 for single-agent baselines. The open-source implementation enables reproducible research and practical deployment of LLM-based software testing in CI/CD pipelines.
Abstract（参考訳）: 手動ソフトウェアのベータテストはコストと時間を要するが、単一エージェントの大規模言語モデル(LLM)アプローチは幻覚や一貫性のない振る舞いに悩まされている。本稿では,多様な視覚機能を持つLDMが3ラウンドの投票プロトコルを通じて協力し,テスト行動に関するコンセンサスに到達する多エージェント委員会フレームワークを提案する。このフレームワークは、モデルの多様性、ペルソナ駆動の振る舞いの変化、およびWebアプリケーションを体系的に探索する視覚的ユーザインタフェース理解を組み合わせる。 9つのテストペルソナと4つのシナリオで84回の試験が実施され、マルチエージェント委員会は全体の89.5%のタスク成功率を達成した。 2から4人のエージェントによる構成は91.7%から100%に成功し、シングルエージェントのベースラインは78.0%となり、13.7から22.0ポイントの改善となった。アクションレベルでは、システムは93.1%の成功率に達し、アクションごとの平均的なレイテンシは0.71秒であり、リアルタイムと継続的統合テストを可能にする。視覚対応エージェントはユーザインターフェース要素の識別に成功し、ナビゲーションとレポートは100%成功し、フォームフィリングは99.2%成功している。 WebShopとOWASPベンチマークのフレームワークを評価し、WebShopで74.7%、GPT-3ベースラインで50.1%、OWASP Juice Shopセキュリティテストで82.0成功し、10 OWASP Top 10の脆弱性カテゴリのうち8つをカバーする。 20回のインジェクトレグレッションでは、F1スコアはバグ検出で0.91であり、シングルエージェントベースラインでは0.78である。オープンソース実装は、CI/CDパイプラインにおけるLLMベースのソフトウェアテストの再現可能な研究と実践的な展開を可能にする。

関連論文リスト

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development [6.072381417546439]
既存のベンチマークは、スクラッチから動くアプリケーションを構築するための完全な"ゼロ・ツー・ワン"プロセスではなく、独立したタスクを計測します。 Vibe Code Benchは、ブラウザベースのサブステップが964である100のWebアプリケーション仕様のベンチマークである。提案するコントリビューションには,(1)エンドツーエンドWebアプリケーション開発のための新しいベンチマークデータセットとブラウザベースの評価パイプライン,(2)コスト,レイテンシ,エラー解析を備えた16のフロンティアモデルの包括的評価,(3)クロスモデルとヒューマンアノテーションの両方による評価器アライメントプロトコルなどが含まれている。
論文参考訳（メタデータ） (2026-03-04T21:00:33Z)
MultiVer: Zero-Shot Multi-Agent Vulnerability Detection [0.0]
MultiVerは脆弱性検出のためのゼロショットマルチエージェントシステムであり、微調整なしで最先端のリコールを実現する。組合投票による4人組のアンサンブルは、PyVulで82.7%のリコールを達成し、微調整のGPT-3.5(81.3%)を1.4ポイント上回った。
論文参考訳（メタデータ） (2026-02-19T22:20:17Z)
Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance [4.424336158797069]
この記事では、AIを利用した一般的な5つのコーディングアシスタント(OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code)を比較します。デビンは受容率において唯一一貫した正の傾向を示す(32週間で週0.77%以上)。分析の結果,PRタスクタイプが受入率に影響を及ぼす主要な要因であることが示唆された。
論文参考訳（メタデータ） (2026-02-09T17:14:46Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。 DoVerは失敗試験の18～28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30～60%を検証または否定する。
論文参考訳（メタデータ） (2025-12-07T09:23:48Z)
CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent [46.41047559759938]
CUA(Computer-using Agent)は、オペレーティングシステムやソフトウェアインターフェースとの自然なインタラクションを通じてタスクの完了を可能にするエージェントである。 Reward モデルは有望な代替手段を提供するが、CUA 評価におけるその有効性はほとんど未検討である。 CUARewardBenchは4つの重要なコントリビューションから構成される。
論文参考訳（メタデータ） (2025-10-21T12:53:40Z)
MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models [10.977990951788422]
我々は、HTML/DOMを読み、Seleniumを出力することで、LLMが再利用可能なブラウザ自動プログラム(マクロ)を自然言語で合成できるかどうかを評価するコードファーストベンチマークであるMacroBenchを紹介した。 MacroBenchは、681のタスクをカバーする7つのセルフホストサイトを、インタラクションの複雑さとターゲティングの難しさでインスタンス化する。 GPT-4o-mini (96.8%), GPT-4o (95.3%), Gemini (89.0%), DeepSeek (83.4%)
論文参考訳（メタデータ） (2025-10-05T21:15:11Z)
SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。 SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文参考訳（メタデータ） (2025-09-30T16:48:49Z)
Multi-Agent Penetration Testing AI for the Web [3.93181912653522]
MAPTAは、自動Webアプリケーションセキュリティアセスメントのためのマルチエージェントシステムである。大規模な言語モデルのオーケストレーションとツール地上実行とエンドツーエンドのエクスプロイトバリデーションを組み合わせたものだ。 104Challenge XBOWベンチマークでは、MAPTAは76.9%の成功を収めた。
論文参考訳（メタデータ） (2025-08-28T14:14:24Z)
SafeSieve: From Heuristics to Experience in Progressive Pruning for LLM-based Multi-Agent Communication [19.633176635669397]
プログレッシブで適応的なマルチエージェント・プルーニングアルゴリズムであるSafeSieveを提案する。 SafeSieveの平均精度は94.01%であり、トークン使用率を12.4%から27.8%削減している。これらの結果はSafeSieveを実用マルチエージェントシステムのための堅牢で効率的でスケーラブルなフレームワークとして確立している。
論文参考訳（メタデータ） (2025-08-15T13:44:50Z)
VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI [15.320553375828045]
VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。 VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
論文参考訳（メタデータ） (2025-08-01T14:22:54Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。