論文の概要: ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark
- arxiv url: http://arxiv.org/abs/2507.05727v2
- Date: Wed, 06 Aug 2025 07:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:09.202491
- Title: ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark
- Title(参考訳): ContextASR-Bench: 大規模文脈音声認識ベンチマーク
- Authors: He Wang, Linhan Ma, Dake Guo, Xiong Wang, Lei Xie, Jin Xu, Junyang Lin,
- Abstract要約: 自動音声認識システムの言語能力を評価するためにContextASR-Benchを提案する。
最大4万のデータエントリを含み、10ドメインに30万以上の名前付きエンティティがある。
LALMは、LLMの強い世界知識とコンテキストモデリングのおかげで、従来のASRモデルよりも大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 28.28891500803133
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automatic Speech Recognition (ASR) has been extensively investigated, yet prior benchmarks have largely focused on assessing the acoustic robustness of ASR models, leaving evaluations of their linguistic capabilities relatively underexplored. This largely stems from the limited parameter sizes and training corpora of conventional ASR models, leaving them with insufficient world knowledge, which is crucial for accurately recognizing named entities across diverse domains. For instance, drug and treatment names in medicine or specialized technical terms in engineering. Recent breakthroughs in Large Language Models (LLMs) and corresponding Large Audio Language Models (LALMs) have markedly enhanced the visibility of advanced context modeling and general artificial intelligence capabilities. Leveraging LLMs, we envision a unified system capable of robust speech recognition across diverse real-world domains, yet existing benchmarks are inadequate for evaluating this objective. To address this gap, we propose ContextASR-Bench: a comprehensive, large-scale benchmark designed to assess the linguistic competence of ASR systems using corpora that feature numerous named entities across multiple domains. It encompasses up to 40,000 data entries with more than 300,000 named entities across over 10 domains. Beyond the audio and its transcription, each sample provides the domain it belongs to and a list of named entities it contains, which are referred to as the context. Based on this, we introduce three evaluation modes to assess how effectively models can exploit such context to improve ASR accuracy. Extensive evaluation on ContextASR-Bench highlights that LALMs outperform conventional ASR models by a large margin thanks to the strong world knowledge and context modeling of LLMs, yet there remains ample room for further improvement. The dataset and evaluation code have been released.
- Abstract(参考訳): 音声認識(ASR)は広く研究されているが、以前のベンチマークでは、ASRモデルの音響的堅牢性の評価に重点を置いており、その言語能力の評価は比較的過小評価されている。
これは、従来のASRモデルのパラメータサイズとトレーニングコーパスが限られており、世界知識が不足しているため、様々なドメインにまたがって命名されたエンティティを正確に認識することが不可欠である。
例えば、医学における薬物や治療の名前、工学における専門用語などである。
近年のLarge Language Models(LLM)およびそれに対応するLarge Audio Language Models(LALM)のブレークスルーにより、高度なコンテキストモデリングと汎用人工知能能力の可視性が著しく向上した。
LLMを活用することで、様々な現実世界のドメインにまたがって頑健な音声認識が可能な統一システムを実現するが、既存のベンチマークは、この目的を評価するには不十分である。
このギャップに対処するために、複数のドメインにまたがる多数の名前付きエンティティを特徴とするコーパスを用いて、ASRシステムの言語能力を評価するために設計された包括的かつ大規模なベンチマークであるContextASR-Benchを提案する。
最大4万のデータエントリを含み、10ドメインに30万以上の名前付きエンティティがある。
オーディオと転写の他に、各サンプルは、その属するドメインと、それを含む名前付きエンティティのリストを提供し、コンテキストと呼ばれる。
そこで本研究では,ASRの精度を向上させるために,このようなコンテキストを効果的に活用できるかを評価する3つの評価モードを提案する。
ContextASR-Benchの広範囲な評価では、LALMはLLMの強い世界知識とコンテキストモデリングのおかげで、従来のASRモデルよりも大きなマージンで優れているが、さらなる改善の余地は十分にある。
データセットと評価コードがリリースされた。
関連論文リスト
- Improving Named Entity Transcription with Contextual LLM-based Revision [14.078146578977599]
音声認識予測において,不正確な名前付きエンティティを修正するための大言語モデル (LLM) のリビジョン機構を導入する。
提案手法は、名前付きエンティティに対して最大30%の相対的なWER削減を実現する。
論文 参考訳(メタデータ) (2025-06-12T14:53:48Z) - Customizing Speech Recognition Model with Large Language Model Feedback [5.290365603660415]
教師なしドメイン適応のための強化学習に基づくアプローチを提案する。
我々は、未ラベルデータを利用して転写品質、特にドメインミスマッチの影響を受ける名前付きエンティティを向上させる。
提案手法は,従来の自己学習手法に比べて,エンティティ単語の誤り率を21%向上させる。
論文 参考訳(メタデータ) (2025-06-05T18:42:57Z) - PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems [0.0]
本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。
我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。
その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-27T14:14:55Z) - ASR-FAIRBENCH: Measuring and Benchmarking Equity Across Speech Recognition Systems [3.8947802481286478]
ASR-FAIRBENCHのリーダーボードを導入し,ASRモデルの精度と等価性をリアルタイムで評価する。
提案手法は,人口集団間でのSOTA ASRモデルの性能格差を顕著に示し,より包括的なASR技術開発を促進するためのベンチマークを提供する。
論文 参考訳(メタデータ) (2025-05-16T11:31:31Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。
本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。
主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-14T23:33:10Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models [25.68491572293656]
大規模言語モデルは、名前付きエンティティ認識のような構造化された知識抽出タスクにおいて不足する。
本稿では,より優れたNERデータセットを生成するため,LCMを質素なNER能力で活用するための革新的で費用効率のよい戦略について検討する。
論文 参考訳(メタデータ) (2024-03-17T06:12:43Z) - Word-Level ASR Quality Estimation for Efficient Corpus Sampling and
Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文 参考訳(メタデータ) (2024-01-20T16:48:55Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。