論文の概要: RNN Transducer Models For Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2104.03842v1
- Date: Thu, 8 Apr 2021 15:35:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:16:16.450851
- Title: RNN Transducer Models For Spoken Language Understanding
- Title(参考訳): 音声言語理解のためのRNNトランスデューサモデル
- Authors: Samuel Thomas, Hong-Kwang J. Kuo, George Saon, Zolt\'an T\"uske, Brian
Kingsbury, Gakuto Kurata, Zvi Kons, Ron Hoory
- Abstract要約: 本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
- 参考スコア(独自算出の注目度): 49.07149742835825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a comprehensive study on building and adapting RNN transducer
(RNN-T) models for spoken language understanding(SLU). These end-to-end (E2E)
models are constructed in three practical settings: a case where verbatim
transcripts are available, a constrained case where the only available
annotations are SLU labels and their values, and a more restrictive case where
transcripts are available but not corresponding audio. We show how RNN-T SLU
models can be developed starting from pre-trained automatic speech recognition
(ASR) systems, followed by an SLU adaptation step. In settings where real audio
data is not available, artificially synthesized speech is used to successfully
adapt various SLU models. When evaluated on two SLU data sets, the ATIS corpus
and a customer call center data set, the proposed models closely track the
performance of other E2E models and achieve state-of-the-art results.
- Abstract(参考訳): 本稿では,言語理解のためのRNNトランスデューサ(RNN-T)モデルの構築と適応に関する総合的研究を行う。
これらのエンド・ツー・エンド(E2E)モデルは、3つの実践的な設定で構築される:動詞の書き起こしが利用可能なケース、利用可能なアノテーションがSLUラベルとその値のみである制約付きケース、より制限付きのケース。
本稿では、事前訓練された自動音声認識(ASR)システムからRNN-T SLUモデルを開発し、続いてSLU適応ステップを示す。
実際の音声データが入手できない環境では、様々なSLUモデルの適応に人工合成音声を用いる。
ATISコーパスと顧客コールセンタデータセットの2つのSLUデータセットで評価すると、提案モデルは他のE2Eモデルの性能を密に追跡し、最先端の結果が得られる。
関連論文リスト
- End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders [13.722028186368737]
本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2023-05-04T15:36:37Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Speech-language Pre-training for End-to-end Spoken Language
Understanding [18.548949994603213]
本稿では,e2e asrエンコーダ (speech) と事前学習した言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-11T21:55:48Z) - Towards Semi-Supervised Semantics Understanding from Speech [15.672850567147854]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られた量のSLUコーパスに基づいて微調整される。
論文 参考訳(メタデータ) (2020-11-11T01:48:09Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。