論文の概要: Back to Basics: Revisiting ASR in the Age of Voice Agents
- arxiv url: http://arxiv.org/abs/2603.25727v1
- Date: Thu, 26 Mar 2026 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.424129
- Title: Back to Basics: Revisiting ASR in the Age of Voice Agents
- Title(参考訳): バック・トゥ・ベーシックズ:音声エージェント時代におけるASRの再考
- Authors: Geeyang Tay, Wentao Ma, Jaewon Lee, Yuzhi Tang, Daniel Lee, Weisu Yin, Dongming Shen, Silin Meng, Yi Zhu, Mu Li, Alex Smola,
- Abstract要約: WildASRは、実際の人間の発話をベースとした診断ベンチマークである。
厳格で不均一なパフォーマンス劣化があり、モデルロバスト性は言語や条件間で伝達されない。
この結果から,生産システムにおけるASRの信頼性の理解と改善には,目標因子分離評価が不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 25.372625280850695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems have achieved near-human accuracy on curated benchmarks, yet still fail in real-world voice agents under conditions that current evaluations do not systematically cover. Without diagnostic tools that isolate specific failure factors, practitioners cannot anticipate which conditions, in which languages, will cause what degree of degradation. We introduce WildASR, a multilingual (four-language) diagnostic benchmark sourced entirely from real human speech that factorizes ASR robustness along three axes: environmental degradation, demographic shift, and linguistic diversity. Evaluating seven widely used ASR systems, we find severe and uneven performance degradation, and model robustness does not transfer across languages or conditions. Critically, models often hallucinate plausible but unspoken content under partial or degraded inputs, creating concrete safety risks for downstream agent behavior. Our results demonstrate that targeted, factor-isolated evaluation is essential for understanding and improving ASR reliability in production systems. Besides the benchmark itself, we also present three analytical tools that practitioners can use to guide deployment decisions.
- Abstract(参考訳): 自動音声認識(ASR)システムは、ベンチマークでほぼ人間に近い精度を達成したが、現在の評価が体系的にカバーされないという条件下では、実際の音声エージェントではまだ失敗している。
特定の障害要因を分離する診断ツールがなければ、どの言語がどの程度劣化するかを実践者は予測できない。
環境劣化, 人口動態変化, 言語多様性の3つの軸に沿って, ASR の頑健性を分解する実人間の発話から完全に引き起こされた多言語(4言語)の診断ベンチマークであるWildASRを紹介した。
広く使用されている7つのASRシステムを評価すると、厳密で不均一な性能劣化が見られ、モデルロバスト性は言語や条件間で伝達されない。
批判的に言えば、モデルはしばしば、部分的または劣化した入力の下で、プラウチブルだが、無意味なコンテンツを幻覚させ、下流のエージェントの振る舞いに対して具体的な安全性のリスクを生じさせる。
この結果から,生産システムにおけるASRの信頼性の理解と改善には,目標因子分離評価が不可欠であることが示唆された。
ベンチマーク自体に加えて、実践者がデプロイメントの決定をガイドするために使用できる3つの分析ツールも提示します。
関連論文リスト
- The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。
これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。
エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文 参考訳(メタデータ) (2026-02-03T08:18:37Z) - Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty-Based Phoneme Difficulty Score for Guided Sampling [2.0128859854921743]
本研究では,音素レベルの不確実性を定量化し,微調整を誘導するデータ効率のパーソナライズ手法を提案する。
モデルが最も困難な音素を推定するためにモンテカルロ・ドロップアウトを利用する。
以上の結果から,この臨床的に検証された不確実性誘導サンプリングは,ASRの精度を著しく向上させ,パーソナライズおよび包括的ASRのための実践的枠組みを提供することが示唆された。
論文 参考訳(メタデータ) (2025-09-23T12:54:30Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia [0.5242869847419834]
監査人は、データ前処理中に単一のテキスト標準化手法に固執することが多い。
第3に、監査はしばしば単一のゴールド標準指標であるWord Error Rateに依存している。
これら3つの落とし穴を考慮に入れた,より包括的な監査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T14:34:36Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。