論文の概要: Testing the Testers: Human-Driven Quality Assessment of Voice AI Testing Platforms
- arxiv url: http://arxiv.org/abs/2511.04133v1
- Date: Thu, 06 Nov 2025 07:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.346674
- Title: Testing the Testers: Human-Driven Quality Assessment of Voice AI Testing Platforms
- Title(参考訳): テスタをテストする - ボイスAIテストプラットフォームの人間による品質評価
- Authors: Miguel E. Andres, Vadim Fedorov, Rida Sadek, Enric Spagnolo-Arrizabalaga, Nadescha Trudel,
- Abstract要約: 人中心ベンチマークによる音声AIテスト品質評価のための,最初の体系的フレームワークを提案する。
提案手法は,現実的なテスト会話(評価品質)を生成し,エージェント応答(シミュレーション品質)を正確に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice AI agents are rapidly transitioning to production deployments, yet systematic methods for ensuring testing reliability remain underdeveloped. Organizations cannot objectively assess whether their testing approaches (internal tools or external platforms) actually work, creating a critical measurement gap as voice AI scales to billions of daily interactions. We present the first systematic framework for evaluating voice AI testing quality through human-centered benchmarking. Our methodology addresses the fundamental dual challenge of testing platforms: generating realistic test conversations (simulation quality) and accurately evaluating agent responses (evaluation quality). The framework combines established psychometric techniques (pairwise comparisons yielding Elo ratings, bootstrap confidence intervals, and permutation tests) with rigorous statistical validation to provide reproducible metrics applicable to any testing approach. To validate the framework and demonstrate its utility, we conducted comprehensive empirical evaluation of three leading commercial platforms focused on Voice AI Testing using 21,600 human judgments across 45 simulations and ground truth validation on 60 conversations. Results reveal statistically significant performance differences with the proposed framework, with the top-performing platform, Evalion, achieving 0.92 evaluation quality measured as f1-score versus 0.73 for others, and 0.61 simulation quality using a league based scoring system (including ties) vs 0.43 for other platforms. This framework enables researchers and organizations to empirically validate the testing capabilities of any platform, providing essential measurement foundations for confident voice AI deployment at scale. Supporting materials are made available to facilitate reproducibility and adoption.
- Abstract(参考訳): ボイスAIエージェントは急速に本番環境に移行していますが、信頼性テストを保証するための体系的な方法はまだ未開発です。
組織は自分たちのテストアプローチ(内部ツールや外部プラットフォーム)が実際に機能しているかを客観的に評価することはできない。
人中心ベンチマークによる音声AIテスト品質評価のための,最初の体系的フレームワークを提案する。
提案手法は,現実的なテスト会話(シミュレーション品質)を生成し,エージェント応答(評価品質)を正確に評価する。
このフレームワークは、確立された心理測定技術(エロ評価、ブートストラップの信頼区間、置換テストのペアワイズ比較)と厳密な統計的検証を組み合わせることで、あらゆるテストアプローチに適用可能な再現可能なメトリクスを提供する。
筆者らは,この枠組みを検証し,その有用性を実証するために,音声AIテストに焦点を当てた3つの主要な商用プラットフォームを,45のシミュレーションで21,600人の判断と60の会話における真実の検証を用いて包括的評価を行った。
その結果,他のプラットフォームでは0.92の評価品質がf1スコア,0.73スコア,他のプラットフォームでは0.61スコア,他のプラットフォームでは0.43スコア,という結果が得られた。
このフレームワークは、研究者や組織が任意のプラットフォームのテスト能力を実証的に検証することを可能にし、大規模に音声AIをデプロイするための重要な測定基盤を提供する。
再現性と採用を容易にするため、サポート材料が利用可能である。
関連論文リスト
- Breaking Barriers in Software Testing: The Power of AI-Driven Automation [0.0]
本稿では、自然言語処理(NLP)、強化学習(RL)、予測モデルを用いたテストケース生成と検証を自動化するAI駆動フレームワークを提案する。
ケーススタディでは、欠陥の検出、テストの労力の削減、リリースサイクルの高速化が測定可能な向上を示している。
論文 参考訳(メタデータ) (2025-08-22T01:04:50Z) - TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。
私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。
次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2025-05-15T14:05:15Z) - LMUnit: Fine-grained Evaluation with Natural Language Unit Tests [43.096722878672956]
応答品質を明示的でテスト可能な基準に分解するパラダイムである自然言語単体テストを導入する。
このパラダイムは、アノテーション間の合意を大幅に改善し、より効果的な開発を可能にする。
LMUnitは、評価ベンチマークとRewardBenchの競争結果で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-17T17:01:15Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - External Stability Auditing to Test the Validity of Personality
Prediction in AI Hiring [4.837064018590988]
本稿では,アルゴリズムによる人格検査による予測の安定性の外部監査のための方法論を開発する。
我々は、この方法論をHumantic AIとCrystalの2つのシステムの監査でインスタンス化する。
両システムとも,測定の重要面に関してかなりの不安定性を示すことがわかった。
論文 参考訳(メタデータ) (2022-01-23T00:44:56Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。