論文の概要: EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents
- arxiv url: http://arxiv.org/abs/2605.13841v1
- Date: Wed, 13 May 2026 17:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.227829
- Title: EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents
- Title(参考訳): EVA-Bench: 音声エージェントを評価するための新しいエンドツーエンドフレームワーク
- Authors: Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara,
- Abstract要約: EVA-Benchは、音声エージェントのエンドツーエンド評価フレームワークである。
動的マルチターン対話を通じてボット間音声会話をオーケストレーションする。
タスク完了、忠実度、および音声レベルの音声の忠実度をキャプチャする。
また、会話の進行、会話の簡潔さ、ターンテイキングのタイミングもキャプチャする。
- 参考スコア(独自算出の注目度): 3.0301675282070577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice agents, artificial intelligence systems that conduct spoken conversations to complete tasks, are increasingly deployed across enterprise applications. However, no existing benchmark jointly addresses two core evaluation challenges: generating realistic simulated conversations, and measuring quality across the full scope of voice-specific failure modes. We present EVA-Bench, an end-to-end evaluation framework that addresses both. On the simulation side, EVA-Bench orchestrates bot-to-bot audio conversations over dynamic multi-turn dialogues, with automatic simulation validation that detects user simulator error and appropriately regenerates conversations before scoring. On the measurement side, EVA-Bench introduces two composite metrics: EVA-A (Accuracy), capturing task completion, faithfulness, and audio-level speech fidelity; and EVA-X (Experience), capturing conversation progression, spoken conciseness, and turn-taking timing. Both metrics apply to different agent architectures, enabling direct cross-architecture comparison. EVA-Bench includes 213 scenarios across three enterprise domains, a controlled perturbation suite for accent and noise robustness, and pass@1, pass@k, pass^k measurements that distinguish peak from reliable capability. Across 12 systems spanning all three architectures, we find: (1) no system simultaneously exceeds 0.5 on both EVA-A pass@1 and EVA-X pass@1; (2) peak and reliable performance diverge substantially (median pass@k - pass^k gap of 0.44 on EVA-A); and (3) accent and noise perturbations expose substantial robustness gaps, with effects varying across architectures, systems, and metrics (mean up to 0.314). We release the full framework, evaluation suite, and benchmark data under an open-source license.
- Abstract(参考訳): 音声エージェント、音声会話でタスクを完了させる人工知能システムは、エンタープライズアプリケーションにまたがってますます普及している。
しかしながら、既存のベンチマークでは、現実的なシミュレートされた会話の生成と、音声固有の障害モードの全スコープにわたる品質の測定という、2つの中核的な評価課題に共同で対処していない。
EVA-Benchは、双方に対処するエンドツーエンド評価フレームワークである。
シミュレーション側では、EVA-Benchは動的マルチターン対話を通じてボット間音声会話を編成し、ユーザのシミュレータエラーを検出し、スコアの前に会話を適切に再生する自動シミュレーション検証を行う。
測定面では、EVA-Benchは、EVA-A(精度)、タスク完成度、忠実度、音声レベルの音声の忠実度、EVA-X(経験)、会話の進行度、音声の簡潔さ、ターンテイクタイミングの2つの複合指標を導入している。
どちらのメトリクスも異なるエージェントアーキテクチャに適用され、アーキテクチャ間の直接比較を可能にします。
EVA-Benchには、3つのエンタープライズドメインにまたがる213のシナリオ、アクセントとノイズの堅牢性を管理する制御された摂動スイート、およびピークを信頼性のある能力と区別するpass@1、pass@k、pass^k測定が含まれている。
1) EVA-A pass@1 と EVA-X pass@1 は同時に0.5を超えるシステムはなく、(2) ピークおよび信頼性の高い性能は、大きく変化している(中規模パス@k - パス^k の EVA-A では 0.44 のギャップ)。
オープンソースライセンスの下で、完全なフレームワーク、評価スイート、ベンチマークデータをリリースします。
関連論文リスト
- Deepfake Audio Detection Using Self-supervised Fusion Representations [5.9998333708296245]
本稿では,環境対応音声・音響深度検出チャレンジ(ESDD2)2026への提出について述べる。
入力音声から音声と環境コンテキストの表現を協調的にモデル化する二分岐ディープフェイク検出フレームワークを提案する。
提案システムは,F1スコア70.20%,環境EER16.54%を達成し,ベースラインシステムを上回った。
論文 参考訳(メタデータ) (2026-05-05T06:51:41Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language [1.5599296461516985]
RAVENは、クエリ条件のクロスモーダルゲーティングモジュールであるQuARTをコアとする統一QAアーキテクチャである。
RAVENは、単調な事前トレーニング、クエリ整合融合、不一致指向の微調整を含む3段階のパイプラインを通じてトレーニングされる。
実験の結果、RAVENは最先端のマルチモーダル言語モデルと比較して14.5%と8.0%の精度で向上した。
論文 参考訳(メタデータ) (2025-05-21T14:33:36Z) - ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems [57.806797579986075]
本稿では,各種ケースドおよびE2E音声対話システムのための統一Webインターフェースを構築するための,オープンソースのユーザフレンドリなツールキットを提案する。
評価指標を用いて,音声対話システムおよびE2E音声対話システムと人間の会話データセットをプロキシとして比較した。
我々の分析は、このツールキットが研究者に、異なる技術の比較と対比を行なわせることを実証している。
論文 参考訳(メタデータ) (2025-03-11T15:24:02Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。