論文の概要: ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark
- arxiv url: http://arxiv.org/abs/2507.05727v1
- Date: Tue, 08 Jul 2025 07:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.655779
- Title: ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark
- Title(参考訳): ContextASR-Bench: 大規模文脈音声認識ベンチマーク
- Authors: He Wang, Linhan Ma, Dake Guo, Xiong Wang, Lei Xie, Jin Xu, Junyang Lin,
- Abstract要約: コンテキスト音声認識評価のための総合的大規模ベンチマークであるContextASR-Benchを提案する。
このベンチマークは、10以上のドメインにわたる4万のデータエントリを含み、モデルパフォーマンスの徹底的な評価を可能にする。
我々の評価では、LALMは、強い世界知識と文脈学習能力を持ち、従来のASRモデルよりも大きなマージンで優れていることが強調されている。
- 参考スコア(独自算出の注目度): 28.28891500803133
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automatic Speech Recognition (ASR) has been extensively investigated, yet prior evaluative efforts have largely been restricted to contextless paradigms. This constraint stems from the limited proficiency of conventional ASR models in context modeling and their deficiency in memory and reasoning based on world knowledge. Recent breakthroughs in the development of Large Language Models (LLMs) and corresponding Large Audio Language Models (LALMs) have markedly enhanced the visibility of general artificial intelligence capabilities. Consequently, there exists a compelling need for a benchmark that can evaluate both the generality and intelligence of ASR systems. To address this gap, we propose ContextASR-Bench: a comprehensive, large-scale benchmark designed to assess contextual speech recognition. This benchmark encompasses up to 40,000 data entries across over 10 domains, enabling a thorough evaluation of model performance in scenarios that omit or incorporate coarse-grained or fine-grained contextual information. Moreover, diverging from conventional ASR evaluations, our benchmark includes an analysis of model efficacy in recognizing named entities mentioned within the auditory input. Our extensive evaluation highlights that LALMs, with strong world knowledge and context learning capabilities, outperform conventional ASR models by a large margin. The dataset and evaluation code have been released at https://github.com/MrSupW/ContextASR-Bench.
- Abstract(参考訳): 音声認識(ASR)は広範に研究されているが、事前評価は文脈のないパラダイムに限られている。
この制約は、文脈モデリングにおける従来のASRモデルの限られた習熟度と、世界知識に基づく記憶と推論の欠如に起因している。
近年のLarge Language Models (LLMs) とそれに対応するLarge Audio Language Models (LALMs) の発展により、汎用人工知能の可視性が著しく向上している。
その結果、ASRシステムの汎用性とインテリジェンスの両方を評価できるベンチマークが必要である。
このギャップに対処するために、コンテキスト音声認識を評価するために設計された包括的かつ大規模なベンチマークであるContextASR-Benchを提案する。
このベンチマークは、10以上のドメインにまたがる4万のデータエントリを含み、粗い粒度やきめ細かいコンテキスト情報を省略または組み込んだシナリオにおけるモデルパフォーマンスの徹底的な評価を可能にする。
さらに,従来のASR評価と異なり,本ベンチマークでは,聴覚入力で言及される名前付きエンティティの認識におけるモデルの有効性について分析する。
LALMは、世界知識と文脈学習能力が強く、従来のASRモデルよりも大きなマージンで優れています。
データセットと評価コードはhttps://github.com/MrSupW/ContextASR-Bench.comでリリースされた。
関連論文リスト
- PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems [0.0]
本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。
我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。
その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-27T14:14:55Z) - ASR-FAIRBENCH: Measuring and Benchmarking Equity Across Speech Recognition Systems [3.8947802481286478]
ASR-FAIRBENCHのリーダーボードを導入し,ASRモデルの精度と等価性をリアルタイムで評価する。
提案手法は,人口集団間でのSOTA ASRモデルの性能格差を顕著に示し,より包括的なASR技術開発を促進するためのベンチマークを提供する。
論文 参考訳(メタデータ) (2025-05-16T11:31:31Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Word-Level ASR Quality Estimation for Efficient Corpus Sampling and
Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文 参考訳(メタデータ) (2024-01-20T16:48:55Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。