論文の概要: More than a Judge: An Empirical Study of Agent-Human Interaction in Crowdsourced Testing Assessment
- arxiv url: http://arxiv.org/abs/2606.06301v1
- Date: Thu, 04 Jun 2026 15:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.911025
- Title: More than a Judge: An Empirical Study of Agent-Human Interaction in Crowdsourced Testing Assessment
- Title(参考訳): 審査員以上:クラウドソーシングテストアセスメントにおけるエージェントとヒューマンの相互作用に関する実証的研究
- Authors: Yue Wang, Yuan Zhao, Shengcheng Yu, Zhenyu Chen, Qing Gu,
- Abstract要約: 本研究では,LLM-as-a-Judgeパラダイムに基づくマルチエージェント評価バックボーンの開発と評価を行った。
しかし、信頼性の高い自動判断は、エージェントの出力がワークフローに埋め込まれた時に人間の作業を改善するかどうかをそれ自体が示さない。
本稿では,評価に基づく行動フィードバックが,テスト担当者の報告の修正方法,その後のタスクの実行方法,アプリケーション間での報告プラクティスの伝達方法を改善するかを検討する。
- 参考スコア(独自算出の注目度): 16.700895092783266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI is increasingly being integrated into software engineering workflows. In crowdsourced testing, however, the large volume and uneven quality of submitted reports still create a substantial review burden for developers. In prior work, we developed and validated a multi-agent assessment backbone based on the LLM-as-a-Judge paradigm. That backbone assesses reports along three dimensions--textuality, adequacy, and competitiveness--and was shown to align well with human consensus while substantially reducing assessment effort. Yet reliable automated judging does not by itself show whether agent outputs can improve human work when embedded into workflow. This paper studies that missing question in the context of crowdsourced testing. We investigate whether assessment-derived, actionable feedback can improve how testers revise reports, perform on later tasks, and transfer reporting practices across applications. To do so, we conducted a controlled four-stage human-subject study with 20 testers across three real-world applications. The results show that agent-generated feedback supports immediate improvements in revised reports, better first submissions on a new task after prior feedback exposure, and evidence of partial but meaningful transfer to a later application. A post-task questionnaire completed by 17 participants complements these artifact-based findings by suggesting that the feedback was generally understandable, acted upon in revision, and carried into later tasks, while also revealing remaining friction in specificity and execution. Overall, the study provides empirical evidence that, in the studied crowdsourced testing setting, assessment agents can serve not only as post-hoc judges but also as workflow-integrated feedback providers that support upstream report-quality improvement.
- Abstract(参考訳): Agentic AIはますます、ソフトウェアエンジニアリングワークフローに統合されている。
しかし、クラウドソーステストでは、提出されたレポートの膨大な量と不均一な品質が、開発者にとってかなりのレビュー負担を生んでいる。
本研究では,LLM-as-a-Judgeパラダイムに基づくマルチエージェント評価バックボーンの開発と評価を行った。
そのバックボーンは、テクスチュアリティ、妥当性、競争性の3つの側面に沿ってレポートを評価し、人間のコンセンサスと整合し、評価の労力を大幅に削減することを示した。
しかし、信頼性の高い自動判断は、エージェントの出力がワークフローに埋め込まれた時に人間の作業を改善するかどうかをそれ自体が示さない。
本稿では,クラウドソーシングテストの文脈で欠落する問題について考察する。
評価に基づく行動可能なフィードバックが、テスタの報告の修正方法、後のタスクの実行方法、アプリケーション間での報告プラクティスの伝達方法を改善することができるかどうかを検討する。
そこで本研究では,実世界の3つのアプリケーションを対象に,20名のテスタを対象に,制御された4段階の人体実験を行った。
その結果、エージェント生成フィードバックは、修正されたレポートの即時改善、事前のフィードバック露光後のタスクへの最初の提案の改善、そして、後続のアプリケーションへの部分的かつ有意義な移行の証拠を示す。
17名の参加者によるタスク終了後のアンケートでは、フィードバックは一般的に理解可能であり、リビジョンで実行され、後続のタスクに実行され、特異性と実行における摩擦が残ることを示唆し、これらの成果を補完する。
この研究は、クラウドソーシングテスト環境では、アセスメントエージェントがポストホックな判断だけでなく、上流のレポート品質改善をサポートするワークフロー統合フィードバックプロバイダとしても機能する、という実証的な証拠を提供する。
関連論文リスト
- An Agentic Approach Towards Replication Package Quality Evaluation [1.6950215926321557]
本稿では,複製パッケージの品質評価のためのエージェント的アプローチについて検討する。
我々は34のソースから380の要件を51の基準に集約し、そのうち31は自動アーティファクトベースの評価のために運用されている。
5つの複製パッケージの予備評価は、91.4%と75.4%の高い実行間一貫性を示している。
論文 参考訳(メタデータ) (2026-06-01T10:00:41Z) - Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents [20.29427807019999]
大規模言語モデル(LLM)コードエージェントは、コードの反復的な編集、ツールの呼び出し、候補パッチの検証によって、リポジトリレベルの問題を徐々に解決している。
エージェントはしばしばテストを書くが、これはSWEベンチのリーダーボード上で多くの上級エージェントが採用しているパラダイムである。
このようなテストが問題解決を有意義に改善したのか、それとも、実際の相互作用予算を消費しながら、単に人間のテストプラクティスを模倣しただけなのか。
論文 参考訳(メタデータ) (2026-02-08T10:26:31Z) - Learning to Summarize by Learning to Quiz: Adversarial Agentic Collaboration for Long Document Summarization [86.98098988779809]
SummQは長期文書要約のための新しい逆多重エージェントフレームワークである。
提案手法では,包括的な要約を作成し,評価するために協調作業を行う要約ジェネレータとレビュアーを用いる。
広範に使用されている3つの文書要約ベンチマーク上でSummQを評価する。
論文 参考訳(メタデータ) (2025-09-25T08:36:19Z) - Helpful Agent Meets Deceptive Judge: Understanding Vulnerabilities in Agentic Workflows [41.97051158610974]
本研究は, 詐欺的あるいは誤解を招くフィードバックの下で, エージェント的堅牢性の体系的解析を行う。
我々は、最強のエージェントでさえ説得力に弱いが欠陥のある批判に弱いことを明らかにした。
本研究は,フィードバックに基づく堅牢性の基本的脆弱性を強調し,より堅牢なエージェントシステム構築のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-06-03T19:26:23Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。