Fugu-MT 論文翻訳(概要): ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet

論文の概要: ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet

arxiv url: http://arxiv.org/abs/2111.14706v1
Date: Mon, 29 Nov 2021 17:05:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-30 18:10:02.014854
Title: ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet
Title（参考訳）: ESPnet-SLU:ESPnetによる音声言語理解の促進
Authors: Siddhant Arora, Siddharth Dalmia, Pavel Denisov, Xuankai Chang, Yushi Ueda, Yifan Peng, Yuekai Zhang, Sujay Kumar, Karthik Ganesan, Brian Yan, Ngoc Thang Vu, Alan W Black, Shinji Watanabe
Abstract要約: ESPnet-SLUは、エンドツーエンドの音声処理ツールキットであるESPnetのプロジェクトである。単一のフレームワークによる音声言語理解の迅速な開発を目的として設計されている。
参考スコア（独自算出の注目度）: 95.39817519115394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Automatic Speech Processing (ASR) systems are getting better, there is an increasing interest of using the ASR output to do downstream Natural Language Processing (NLP) tasks. However, there are few open source toolkits that can be used to generate reproducible results on different Spoken Language Understanding (SLU) benchmarks. Hence, there is a need to build an open source standard that can be used to have a faster start into SLU research. We present ESPnet-SLU, which is designed for quick development of spoken language understanding in a single framework. ESPnet-SLU is a project inside end-to-end speech processing toolkit, ESPnet, which is a widely used open-source standard for various speech processing tasks like ASR, Text to Speech (TTS) and Speech Translation (ST). We enhance the toolkit to provide implementations for various SLU benchmarks that enable researchers to seamlessly mix-and-match different ASR and NLU models. We also provide pretrained models with intensively tuned hyper-parameters that can match or even outperform the current state-of-the-art performances. The toolkit is publicly available at https://github.com/espnet/espnet.
Abstract（参考訳）: 自動音声処理(ASR)システムが向上するにつれて、下流自然言語処理(NLP)タスクにASR出力を使用することへの関心が高まっている。しかし、異なるSpoken Language Understanding (SLU)ベンチマークで再現可能な結果を生成するために使用できるオープンソースツールキットは少ない。したがって、slu研究のより高速な開始のために使用できるオープンソース標準を構築する必要がある。 ESPnet-SLUは1つのフレームワークで音声言語理解の迅速な開発を目的としている。 ESPnet-SLUは、ASR、テキスト・トゥ・スピーチ(TTS)、音声翻訳(ST)といった様々な音声処理タスクに広く使われているオープンソースの標準である。我々は、様々なSLUベンチマークの実装を提供するためのツールキットを強化し、研究者がシームレスに異なるASRとNLUモデルを混合・マッチングできるようにする。集中的に調整されたハイパーパラメータを持つ事前トレーニングされたモデルも提供しています。このツールキットはhttps://github.com/espnet/espnetで公開されている。

関連論文リスト

ESPnet-SpeechLM: An Open Speech Language Model Toolkit [98.4525334631522]
音声言語モデル(SpeechLMs)の開発を民主化するオープンツールキットであるESPnet-SpeechLMを提案する。このツールキットは、音声処理タスクを普遍的な逐次モデリング問題としてフレーミングすることで標準化する。 ESPnet-SpeechLMを使用すると、ユーザーはタスクテンプレートを簡単に定義し、キー設定を設定することができ、シームレスで合理化されたSpeechLM開発が可能になる。
論文参考訳（メタデータ） (2025-02-21T05:21:58Z)
Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages [0.20971479389679337]
Spoken Language Understanding(SLU)モデルは、Alexa、Bixby、Google Assistantなどの音声アシスタント(VA)のコアコンポーネントである。本稿では,Large Language Models (LLM) を利用して,SLUシステムを新しい言語に拡張するパイプラインを提案する。当社のアプローチは,mBERTモデルを用いたクラウドシナリオにおいて,主要なマルチ言語SLUデータセットであるMultiATIS++ベンチマークを改善した。
論文参考訳（メタデータ） (2024-04-03T09:13:26Z)
Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文参考訳（メタデータ） (2024-01-05T17:58:10Z)
OpenSLU: A Unified, Modularized, and Extensible Toolkit for Spoken Language Understanding [57.48730496422474]
Spoken Language Understanding (SLU) はタスク指向対話システムの中核となるコンポーネントの一つである。 OpenSLUは、言語理解のための統一的でモジュール化されたツールキットを提供するオープンソースツールキットである。
論文参考訳（メタデータ） (2023-05-17T14:12:29Z)
ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding [86.47555696652618]
本稿では,音声分離と拡張をESPnetツールキットに統合する最近の進歩について述べる。新しいインタフェースは、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを併用するように設計されている。その結果,SEフロントエンドとバックエンドタスクの統合は,ASR以外のタスクにおいても有望な研究方向であることが示唆された。
論文参考訳（メタデータ） (2022-07-19T18:55:29Z)
Finstreder: Simple and fast Spoken Language Understanding with Finite State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文参考訳（メタデータ） (2022-06-29T12:49:53Z)
ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文参考訳（メタデータ） (2020-04-21T18:38:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。