論文の概要: Treble10: A high-quality dataset for far-field speech recognition, dereverberation, and enhancement
- arxiv url: http://arxiv.org/abs/2510.23141v1
- Date: Mon, 27 Oct 2025 09:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:22.009209
- Title: Treble10: A high-quality dataset for far-field speech recognition, dereverberation, and enhancement
- Title(参考訳): Treble10: 遠距離場音声認識・デバーベーション・エンハンスメントのための高品質データセット
- Authors: Sarabeth S. Mullins, Georg Götz, Eric Bezzam, Steven Zheng, Daniel Gert Nielsen,
- Abstract要約: 本稿では,大規模で物理的に正確な室内音響データセットであるTreble10を紹介する。
Treble10には、3000以上のブロードバンドルームインパルス応答(RIR)が含まれており、フル装備の現実世界の10室でシミュレートされている。
全ての信号は32kHzでシミュレートされ、低周波効果と高周波反射を正確にモデル化する。
- 参考スコア(独自算出の注目度): 2.6008293644386904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate far-field speech datasets are critical for tasks such as automatic speech recognition (ASR), dereverberation, speech enhancement, and source separation. However, current datasets are limited by the trade-off between acoustic realism and scalability. Measured corpora provide faithful physics but are expensive, low-coverage, and rarely include paired clean and reverberant data. In contrast, most simulation-based datasets rely on simplified geometrical acoustics, thus failing to reproduce key physical phenomena like diffraction, scattering, and interference that govern sound propagation in complex environments. We introduce Treble10, a large-scale, physically accurate room-acoustic dataset. Treble10 contains over 3000 broadband room impulse responses (RIRs) simulated in 10 fully furnished real-world rooms, using a hybrid simulation paradigm implemented in the Treble SDK that combines a wave-based and geometrical acoustics solver. The dataset provides six complementary subsets, spanning mono, 8th-order Ambisonics, and 6-channel device RIRs, as well as pre-convolved reverberant speech scenes paired with LibriSpeech utterances. All signals are simulated at 32 kHz, accurately modelling low-frequency wave effects and high-frequency reflections. Treble10 bridges the realism gap between measurement and simulation, enabling reproducible, physically grounded evaluation and large-scale data augmentation for far-field speech tasks. The dataset is openly available via the Hugging Face Hub, and is intended as both a benchmark and a template for next-generation simulation-driven audio research.
- Abstract(参考訳): 正確な遠距離音声データセットは、自動音声認識(ASR)、デバーベレーション、音声強調、音源分離といったタスクに欠かせない。
しかし、現在のデータセットは音響リアリズムとスケーラビリティのトレードオフによって制限されている。
測定されたコーパスは忠実な物理を提供するが、高価で低被覆であり、ペアのクリーンデータと残響データを含んでいることは滅多にない。
対照的に、シミュレーションに基づくほとんどのデータセットは、単純な幾何学的音響に依存しており、複雑な環境で音の伝搬を管理する回折、散乱、干渉といった重要な物理現象を再現することができない。
本稿では,大規模で物理的に正確な室内音響データセットであるTreble10を紹介する。
Treble10には10の部屋でシミュレートされた3000以上のブロードバンドルームインパルス応答(RIR)が含まれている。
このデータセットは、モノ、8階のAmbisonics、6チャンネルのデバイスRIRにまたがる6つの補完的なサブセットと、LibriSpeechの発声と組み合わせた事前変換された残響音声シーンを提供する。
全ての信号は32kHzでシミュレートされ、低周波効果と高周波反射を正確にモデル化する。
Treble10は、測定とシミュレーションの間のリアリズムのギャップを埋め、再現可能で物理的に基礎付けられた評価と、遠距離音声タスクのための大規模データ拡張を可能にする。
このデータセットはHugging Face Hubを通じて公開されており、次世代のシミュレーション駆動オーディオ研究のためのベンチマークとテンプレートとして意図されている。
関連論文リスト
- In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。
既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。
フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:41:56Z) - EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling [69.96729022219117]
音波が物体にぶつかると、高周波で微妙な視覚変化をもたらす振動を誘発する。
イベントカメラハードウェアの最近の進歩は、その視覚的聴覚回復への応用に有益であることを示している。
イベントストリームからの時空間情報を完全に活用した,非接触音の回復のための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-04-03T08:51:17Z) - SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera [61.642416712939095]
SoundLoc3Dはタスクをセット予測問題として扱い、セットの各要素は潜在的な音源に対応する。
大規模シミュレーションデータセットにおけるSoundLoc3Dの有効性と優位性を示す。
論文 参考訳(メタデータ) (2024-12-22T05:04:17Z) - HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset [0.6568378556428859]
このコントリビューションでは、Image Source Methodを使って作成した7階のAmbisonic Room Impulse Responses (HOA-RIRs) のデータセットが導入されている。
より高階のアンビニクスを用いることで、我々のデータセットは正確な空間的オーディオ再生を可能にする。
提示された64マイクロフォン構成により、球高調波領域で直接RIRをキャプチャできる。
論文 参考訳(メタデータ) (2024-11-21T15:16:48Z) - Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。
実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文 参考訳(メタデータ) (2024-11-13T06:55:18Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。