論文の概要: RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation
- arxiv url: http://arxiv.org/abs/2601.19949v1
- Date: Sun, 25 Jan 2026 22:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.601192
- Title: RIR-Mega-Speech: A Reverberant Speech Corpus with Comprehensive Acoustic Metadata and Reproducible Evaluation
- Title(参考訳): RIR-Mega-Speech:包括的音響メタデータと再現性評価を備えた残響音声コーパス
- Authors: Mandip Goswami,
- Abstract要約: RIR-Mega-Speechは,LibriSpeech音声を合成して生成した約117.5時間のコーパスである。
すべてのファイルには、RT60、DRR(direct-to-reverberant ratio)、Clarity indexが含まれる。
We measure 5.20% WER on 1500 paired utterances, corresponding with a paired increase of 2.50% points。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite decades of research on reverberant speech, comparing methods remains difficult because most corpora lack per-file acoustic annotations or provide limited documentation for reproduction. We present RIR-Mega-Speech, a corpus of approximately 117.5 hours created by convolving LibriSpeech utterances with roughly 5,000 simulated room impulse responses from the RIR-Mega collection. Every file includes RT60, direct-to-reverberant ratio (DRR), and clarity index ($C_{50}$) computed from the source RIR using clearly defined, reproducible procedures. We also provide scripts to rebuild the dataset and reproduce all evaluation results. Using Whisper small on 1,500 paired utterances, we measure 5.20% WER (95% CI: 4.69--5.78) on clean speech and 7.70% (7.04--8.35) on reverberant versions, corresponding to a paired increase of 2.50 percentage points (2.06--2.98). This represents a 48% relative degradation. WER increases monotonically with RT60 and decreases with DRR, consistent with prior perceptual studies. While the core finding that reverberation harms recognition is well established, we aim to provide the community with a standardized resource where acoustic conditions are transparent and results can be verified independently. The repository includes one-command rebuild instructions for both Windows and Linux environments.
- Abstract(参考訳): 残響音声の数十年にわたる研究にもかかわらず、ほとんどのコーパスはファイルごとのアコースティックアノテーションを欠いているため、比較方法が難しいままである。
RIR-Mega-Speechは,RIR-Megaコレクションから約5,000の室内インパルス応答で,LibriSpeech音声を合成して生成した約117.5時間のコーパスである。
すべてのファイルはRT60、DRR、および明確に定義された再現可能な手順を使用してソースRIRから計算された明度指数(C_{50}$)を含む。
また、データセットを再構築し、すべての評価結果を再現するスクリプトも提供します。
1500対の発話でWhisperを小さく使用することにより、クリーン音声で5.20% WER (95% CI: 4.69--5.78)、残響バージョンで7.70% (7.04--8.35)、ペアで2.50ポイント (2.06--2.98) の増加に対応する。
相対分解率は48%である。
WERはRT60と単調に増加し、DRRとともに減少する。
残響が認識に悪影響を及ぼすという中核的な発見は十分に確立されているものの、音響条件が透明であり、結果が独立して検証可能な標準化されたリソースをコミュニティに提供することを目的としている。
このレポジトリには、WindowsとLinux環境の両方のワンコマンドの再構築命令が含まれている。
関連論文リスト
- Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - VoxRAG: A Step Toward Transcription-Free RAG Systems in Spoken Question Answering [4.740589102992697]
本稿では,モジュール型音声音声合成合成システムであるVoxRAGを紹介する。
VoxRAGは書き起こしをバイパスし、音声クエリから直接意味のある音声セグメントを検索する。
論文 参考訳(メタデータ) (2025-05-22T22:42:40Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-07T05:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。