論文の概要: ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet
- arxiv url: http://arxiv.org/abs/2111.14706v1
- Date: Mon, 29 Nov 2021 17:05:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 18:10:02.014854
- Title: ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet
- Title(参考訳): ESPnet-SLU:ESPnetによる音声言語理解の促進
- Authors: Siddhant Arora, Siddharth Dalmia, Pavel Denisov, Xuankai Chang, Yushi
Ueda, Yifan Peng, Yuekai Zhang, Sujay Kumar, Karthik Ganesan, Brian Yan, Ngoc
Thang Vu, Alan W Black, Shinji Watanabe
- Abstract要約: ESPnet-SLUは、エンドツーエンドの音声処理ツールキットであるESPnetのプロジェクトである。
単一のフレームワークによる音声言語理解の迅速な開発を目的として設計されている。
- 参考スコア(独自算出の注目度): 95.39817519115394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Automatic Speech Processing (ASR) systems are getting better, there is an
increasing interest of using the ASR output to do downstream Natural Language
Processing (NLP) tasks. However, there are few open source toolkits that can be
used to generate reproducible results on different Spoken Language
Understanding (SLU) benchmarks. Hence, there is a need to build an open source
standard that can be used to have a faster start into SLU research. We present
ESPnet-SLU, which is designed for quick development of spoken language
understanding in a single framework. ESPnet-SLU is a project inside end-to-end
speech processing toolkit, ESPnet, which is a widely used open-source standard
for various speech processing tasks like ASR, Text to Speech (TTS) and Speech
Translation (ST). We enhance the toolkit to provide implementations for various
SLU benchmarks that enable researchers to seamlessly mix-and-match different
ASR and NLU models. We also provide pretrained models with intensively tuned
hyper-parameters that can match or even outperform the current state-of-the-art
performances. The toolkit is publicly available at
https://github.com/espnet/espnet.
- Abstract(参考訳): 自動音声処理(ASR)システムが向上するにつれて、下流自然言語処理(NLP)タスクにASR出力を使用することへの関心が高まっている。
しかし、異なるSpoken Language Understanding (SLU)ベンチマークで再現可能な結果を生成するために使用できるオープンソースツールキットは少ない。
したがって、slu研究のより高速な開始のために使用できるオープンソース標準を構築する必要がある。
ESPnet-SLUは1つのフレームワークで音声言語理解の迅速な開発を目的としている。
ESPnet-SLUは、ASR、テキスト・トゥ・スピーチ(TTS)、音声翻訳(ST)といった様々な音声処理タスクに広く使われているオープンソースの標準である。
我々は、様々なSLUベンチマークの実装を提供するためのツールキットを強化し、研究者がシームレスに異なるASRとNLUモデルを混合・マッチングできるようにする。
集中的に調整されたハイパーパラメータを持つ事前トレーニングされたモデルも提供しています。
このツールキットはhttps://github.com/espnet/espnetで公開されている。
関連論文リスト
- Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages [0.20971479389679337]
Spoken Language Understanding(SLU)モデルは、Alexa、Bixby、Google Assistantなどの音声アシスタント(VA)のコアコンポーネントである。
本稿では,Large Language Models (LLM) を利用して,SLUシステムを新しい言語に拡張するパイプラインを提案する。
当社のアプローチは,mBERTモデルを用いたクラウドシナリオにおいて,主要なマルチ言語SLUデータセットであるMultiATIS++ベンチマークを改善した。
論文 参考訳(メタデータ) (2024-04-03T09:13:26Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - OpenSLU: A Unified, Modularized, and Extensible Toolkit for Spoken
Language Understanding [57.48730496422474]
Spoken Language Understanding (SLU) はタスク指向対話システムの中核となるコンポーネントの一つである。
OpenSLUは、言語理解のための統一的でモジュール化されたツールキットを提供するオープンソースツールキットである。
論文 参考訳(メタデータ) (2023-05-17T14:12:29Z) - ESPnet-SE++: Speech Enhancement for Robust Speech Recognition,
Translation, and Understanding [86.47555696652618]
本稿では,音声分離と拡張をESPnetツールキットに統合する最近の進歩について述べる。
新しいインタフェースは、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを併用するように設計されている。
その結果,SEフロントエンドとバックエンドタスクの統合は,ASR以外のタスクにおいても有望な研究方向であることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T18:55:29Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。