論文の概要: Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics
- arxiv url: http://arxiv.org/abs/2603.02252v1
- Date: Fri, 27 Feb 2026 01:44:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.464188
- Title: Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics
- Title(参考訳): Whisper-RIR-Mega: 室内音響に対するASRロバストネスのためのクリーンリベラント音声ベンチマーク
- Authors: Mandip Goswami,
- Abstract要約: 本稿では,室内音響に対する自動音声認識(ASR)の頑健性を評価するために,一対のクリーン音声と残響音声のベンチマークデータセットWhisper-RIR-Megaを紹介する。
各サンプルは、RIR-Megaコーパスからの実室インパルス応答を伴う同じ発話とクリーンなLibriSpeech発話をペアリングする。
1600個のテストサンプルに対して5つのWhisperモデルを評価し,クリーンで残響な条件下で単語誤り率(WER)と文字誤り率(CER)を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Whisper-RIR-Mega, a benchmark dataset of paired clean and reverberant speech for evaluating automatic speech recognition (ASR) robustness to room acoustics. Each sample pairs a clean LibriSpeech utterance with the same utterance convolved with a real room impulse response from the RIR-Mega corpus, with stratified splits by reverberation time (RT60) and direct-to-reverberant ratio (DRR). We evaluate five Whisper models (tiny through large-v3) on 1600 test samples and report word error rate (WER) and character error rate (CER) under clean and reverberant conditions. Reverberation consistently degrades performance across all model sizes; the reverb penalty in WER ranges from 0.12 to 1.07 percentage points depending on the model. We release the dataset, evaluation code, and baseline results to support reproducible research on robust ASR.
- Abstract(参考訳): 本稿では,室内音響に対する自動音声認識(ASR)の頑健性を評価するために,一対のクリーン音声と残響音声のベンチマークデータセットWhisper-RIR-Megaを紹介する。
各サンプルは、RIR-Megaコーパスからの実室インパルス応答と同一の発話を伴う清浄なLibriSpeech発話をペアリングし、残響時間(RT60)と直接残響比(DRR)による成層分割を行う。
1600個のテストサンプルに対して5つのWhisperモデル(大容量v3)を評価し、クリーンで残響な条件下で単語誤り率(WER)と文字誤り率(CER)を報告する。
残響は全てのモデルサイズで一貫して性能を低下させ、WERの残響ペナルティはモデルに応じて0.12から1.07ポイントの範囲である。
我々は、ロバストASRの再現可能な研究を支援するために、データセット、評価コード、ベースライン結果をリリースする。
関連論文リスト
- RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation [0.0]
RIR-Mega-Speechは,LibriSpeech音声を合成して生成した約117.5時間のコーパスである。
すべてのファイルには、RT60、DRR(direct-to-reverberant ratio)、Clarity indexが含まれる。
We measure 5.20% WER on 1500 paired utterances, corresponding with a paired increase of 2.50% points。
論文 参考訳(メタデータ) (2026-01-25T22:17:18Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - MB-RIRs: a Synthetic Room Impulse Response Dataset with Frequency-Dependent Absorption Coefficients [7.468132532398651]
従来の画像ソース方式(ISM)の靴箱RIR上に3つの機能を実装した。
我々は、各RIRデータセットに対してDeepFilternet3モデルをトレーニングし、実RIRのテストセットの性能を評価する。
論文 参考訳(メタデータ) (2025-07-13T19:00:26Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-07T05:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。