論文の概要: AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR
- arxiv url: http://arxiv.org/abs/2604.27543v1
- Date: Thu, 30 Apr 2026 07:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.977629
- Title: AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR
- Title(参考訳): AppTekコールセンター対話: 英語ASRのための多段階長期ベンチマーク
- Authors: Eugen Beck, Sarah Beranek, Uma Moothiringote, Daniel Mann, Wilfried Michel, Katie Nguyen, Taylor Tragemann,
- Abstract要約: この研究は、自発的にロールプレイされたエージェント-顧客会話のコレクションであるAppTek Call-Center Dialogues corpusを提示する。
オーディオやテキストはリリース前には公開されていなかったため、既存の大規模事前学習コーパスと重複するリスクが軽減された。
我々は、異なるセグメンテーションアプローチの下で、オープンソースのASRシステムのセットをベンチマークする。
- 参考スコア(独自算出の注目度): 3.6484760017156628
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluating English ASR systems for conversational AI applications remains difficult, as many publicly available corpora are either pre-segmented into short segments, consist of read or prepared speech, or lack explicit dialect annotations to evaluate robustness for a diverse user base. This work presents the AppTek Call-Center Dialogues corpus, a collection of spontaneous, role-played agent-customer conversations spanning fourteen English accents covering sixteen service-oriented scenarios. The dataset was commissioned specifically for evaluation and none of the audio or text was publicly available prior to release, reducing the risk of overlap with existing large-scale pretraining corpora. We benchmark a set of open-source ASR systems under different segmentation approaches. Results show substantial variation across accents and segmentation methods, indicating that good performance on general American English benchmarks does not necessarily generalize to other accents.
- Abstract(参考訳): 会話型AIアプリケーションに対する英語のASRシステムの評価は、多くの公開コーパスが、読み書きまたは準備された音声からなる短いセグメントに予め分割されているか、または、多様なユーザーベースに対する堅牢性を評価するための明示的な方言アノテーションが欠如しているため、依然として難しいままである。
この研究は、16のサービス指向シナリオをカバーする14の英語アクセントにまたがる、自発的でロールプレイされたエージェント-顧客会話のコレクションであるAppTek Call-Center Dialogues corpusを提示する。
データセットは特に評価のために委託され、リリース前にはオーディオやテキストが公開されていなかったため、既存の大規模事前学習コーパスと重複するリスクが軽減された。
我々は、異なるセグメンテーションアプローチの下で、オープンソースのASRシステムのセットをベンチマークする。
その結果、アクセントとセグメンテーション法にはかなりの違いがあることが示され、一般のアメリカ英語ベンチマークの性能が必ずしも他のアクセントに一般化するとは限らないことが示唆された。
関連論文リスト
- MUSCAT: MUltilingual, SCientific ConversATion Benchmark [60.87925076316812]
多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にすることである。
この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。
本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-04-17T10:39:01Z) - WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild [40.210224623581155]
マルチモーダル大規模言語モデル (LLM) は直接音声対話の強力な機能を示している。
既存の評価手法は、しばしばテキストベースのベンチマークに適応し、音声の特徴や課題を見下ろしている。
本稿では,実践会話におけるエンドツーエンドの音声LLMを体系的に評価するために設計された,最初の総合的ベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-06-27T03:18:45Z) - CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval [0.9023847175654603]
CLASP(Contrastive Language-Speech Pretraining)は、音声テキスト情報検索に適した多言語表現である。
トレーニングでは,フィクションから宗教まで15の分野を対象とする音声テキストデータセットを新たに導入した。
複数の言語で評価した結果、CLASPはHITS@1、MRR、平均Rメトリクスで新しいベンチマークを確立している。
論文 参考訳(メタデータ) (2024-12-17T16:38:10Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - ASR Benchmarking: Need for a More Representative Conversational Dataset [3.017953715883516]
本研究では、大人同士の非構造的な会話からなる、TalkBankから派生した多言語会話データセットを提案する。
その結果,会話環境下でのテストでは,様々な最先端のASRモデルに対して顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2024-09-18T15:03:04Z) - Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文 参考訳(メタデータ) (2021-04-21T20:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。