論文の概要: Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2102.06750v1
- Date: Fri, 12 Feb 2021 20:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:42:57.496640
- Title: Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding
- Title(参考訳): 私の言うとおりにせよ,私の言うとおりにせよ - 音声言語理解のためのシーケンス損失トレーニング
- Authors: Milind Rao, Pranav Dheram, Gautam Tiwari, Anirudh Raju, Jasha Droppo,
Ariya Rastrow, Andreas Stolcke
- Abstract要約: 音声言語理解(SLU)システムは、音声から転写だけでなく、意図や名前のエンティティの意味を抽出します。
セマンティックエラーのプロキシとしてSLUメトリックに基づく非微分シーケンス損失を提案し、REINFORCEトリックを使用してASRとSLUモデルをこの損失でトレーニングします。
我々は、カスタムシーケンスロストレーニングがオープンSLUデータセットの最先端であり、ASRとNLUのパフォーマンスメトリックの両方で6%の相対的な改善をもたらすことを示しています。
- 参考スコア(独自算出の注目度): 22.652754839140744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) systems extract transcriptions, as well
as semantics of intent or named entities from speech, and are essential
components of voice activated systems. SLU models, which either directly
extract semantics from audio or are composed of pipelined automatic speech
recognition (ASR) and natural language understanding (NLU) models, are
typically trained via differentiable cross-entropy losses, even when the
relevant performance metrics of interest are word or semantic error rates. In
this work, we propose non-differentiable sequence losses based on SLU metrics
as a proxy for semantic error and use the REINFORCE trick to train ASR and SLU
models with this loss. We show that custom sequence loss training is the
state-of-the-art on open SLU datasets and leads to 6% relative improvement in
both ASR and NLU performance metrics on large proprietary datasets. We also
demonstrate how the semantic sequence loss training paradigm can be used to
update ASR and SLU models without transcripts, using semantic feedback alone.
- Abstract(参考訳): 音声言語理解(SLU)システムは、音声から意図または名前付き実体の意味だけでなく、転写を抽出し、音声活性化システムの不可欠なコンポーネントです。
SLUモデルは、音声から直接意味を抽出するか、パイプライン付き自動音声認識(ASR)と自然言語理解(NLU)モデルから構成されるが、典型的には、関連するパフォーマンス指標が単語またはセマンティックエラー率であっても、異なるエントロピーの損失によって訓練される。
本研究では,セマンティックエラーのプロキシとして,SLUメトリックに基づく非微分シーケンス損失を提案し,REINFORCEトリックを用いてASRモデルとSLUモデルの訓練を行う。
我々は、カスタムシーケンス損失トレーニングがオープンsluデータセットの最先端であり、大規模プロプライエタリデータセットにおけるasrとnluのパフォーマンスメトリクスの相対的に6%改善することを示す。
また, 意味的フィードバックのみを用いて, ASR と SLU モデルを転写せずに更新するために, セマンティックシーケンス損失訓練パラダイムをいかに利用できるかを示す。
関連論文リスト
- End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders [13.722028186368737]
本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2023-05-04T15:36:37Z) - Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - End-to-End Spoken Language Understanding using RNN-Transducer ASR [14.267028645397266]
本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。
ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。
論文 参考訳(メタデータ) (2021-06-30T09:20:32Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Robust Spoken Language Understanding with RL-based Value Error Recovery [35.82890898452309]
Spoken Language Understanding (SLU) は、音声認識されたテキストから構造化された意味表現(例えば、スロット値対)を抽出することを目的としている。
本稿では,ルールベースの値エラー回復モジュールを用いてSLU入力適応を誘導する,新しいロバストなSLUフレームワークを提案する。
パブリックCATSLUデータセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-09-07T13:32:07Z) - Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces [17.030832205343195]
本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
論文 参考訳(メタデータ) (2020-08-14T02:43:57Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。