論文の概要: ESPnet-SE++: Speech Enhancement for Robust Speech Recognition,
Translation, and Understanding
- arxiv url: http://arxiv.org/abs/2207.09514v1
- Date: Tue, 19 Jul 2022 18:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:55:40.696519
- Title: ESPnet-SE++: Speech Enhancement for Robust Speech Recognition,
Translation, and Understanding
- Title(参考訳): ESPnet-SE++:ロバスト音声認識・翻訳・理解のための音声強調
- Authors: Yen-Ju Lu, Xuankai Chang, Chenda Li, Wangyou Zhang, Samuele Cornell,
Zhaoheng Ni, Yoshiki Masuyama, Brian Yan, Robin Scheibler, Zhong-Qiu Wang, Yu
Tsao, Yanmin Qian, Shinji Watanabe
- Abstract要約: 本稿では,音声分離と拡張をESPnetツールキットに統合する最近の進歩について述べる。
新しいインタフェースは、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを併用するように設計されている。
その結果,SEフロントエンドとバックエンドタスクの統合は,ASR以外のタスクにおいても有望な研究方向であることが示唆された。
- 参考スコア(独自算出の注目度): 86.47555696652618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents recent progress on integrating speech separation and
enhancement (SSE) into the ESPnet toolkit. Compared with the previous ESPnet-SE
work, numerous features have been added, including recent state-of-the-art
speech enhancement models with their respective training and evaluation
recipes. Importantly, a new interface has been designed to flexibly combine
speech enhancement front-ends with other tasks, including automatic speech
recognition (ASR), speech translation (ST), and spoken language understanding
(SLU). To showcase such integration, we performed experiments on carefully
designed synthetic datasets for noisy-reverberant multi-channel ST and SLU
tasks, which can be used as benchmark corpora for future research. In addition
to these new tasks, we also use CHiME-4 and WSJ0-2Mix to benchmark multi- and
single-channel SE approaches. Results show that the integration of SE
front-ends with back-end tasks is a promising research direction even for tasks
besides ASR, especially in the multi-channel scenario. The code is available
online at https://github.com/ESPnet/ESPnet. The multi-channel ST and SLU
datasets, which are another contribution of this work, are released on
HuggingFace.
- Abstract(参考訳): 本稿では,音声分離・拡張(SSE)のESPnetツールキットへの統合について述べる。
従来のESPnet-SEと比較すると、最近の最先端音声強調モデルや、それぞれのトレーニングおよび評価レシピなど、多くの特徴が追加されている。
重要なことに、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを柔軟に組み合わせた新しいインターフェースが設計されている。
このような統合を実証するため,我々は,ノイズの少ないマルチチャネルSTとSLUタスクのための,慎重に設計された合成データセットの実験を行った。
これらの新しいタスクに加えて,CHiME-4 と WSJ0-2Mix を用いてマルチチャネルSE のベンチマークを行う。
その結果,seフロントエンドとバックエンドタスクの統合は,asr以外のタスク,特にマルチチャネルシナリオにおいても有望な研究方向であることがわかった。
コードはhttps://github.com/espnet/espnetで入手できる。
この作業のもうひとつの貢献であるマルチチャネルSTとSLUデータセットは、HuggingFaceでリリースされている。
関連論文リスト
- Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect [11.013934239276036]
自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、様々な下流タスクにおいて顕著な性能を示した。
本稿では,低音源のチュニジア・アラビア方言の文脈におけるSSLアプローチの有効性を比較することで貢献する。
論文 参考訳(メタデータ) (2024-07-05T14:21:36Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet [95.39817519115394]
ESPnet-SLUは、エンドツーエンドの音声処理ツールキットであるESPnetのプロジェクトである。
単一のフレームワークによる音声言語理解の迅速な開発を目的として設計されている。
論文 参考訳(メタデータ) (2021-11-29T17:05:49Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。