論文の概要: Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2102.06750v1
- Date: Fri, 12 Feb 2021 20:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:42:57.496640
- Title: Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding
- Title(参考訳): 私の言うとおりにせよ,私の言うとおりにせよ - 音声言語理解のためのシーケンス損失トレーニング
- Authors: Milind Rao, Pranav Dheram, Gautam Tiwari, Anirudh Raju, Jasha Droppo,
Ariya Rastrow, Andreas Stolcke
- Abstract要約: 音声言語理解(SLU)システムは、音声から転写だけでなく、意図や名前のエンティティの意味を抽出します。
セマンティックエラーのプロキシとしてSLUメトリックに基づく非微分シーケンス損失を提案し、REINFORCEトリックを使用してASRとSLUモデルをこの損失でトレーニングします。
我々は、カスタムシーケンスロストレーニングがオープンSLUデータセットの最先端であり、ASRとNLUのパフォーマンスメトリックの両方で6%の相対的な改善をもたらすことを示しています。
- 参考スコア(独自算出の注目度): 22.652754839140744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) systems extract transcriptions, as well
as semantics of intent or named entities from speech, and are essential
components of voice activated systems. SLU models, which either directly
extract semantics from audio or are composed of pipelined automatic speech
recognition (ASR) and natural language understanding (NLU) models, are
typically trained via differentiable cross-entropy losses, even when the
relevant performance metrics of interest are word or semantic error rates. In
this work, we propose non-differentiable sequence losses based on SLU metrics
as a proxy for semantic error and use the REINFORCE trick to train ASR and SLU
models with this loss. We show that custom sequence loss training is the
state-of-the-art on open SLU datasets and leads to 6% relative improvement in
both ASR and NLU performance metrics on large proprietary datasets. We also
demonstrate how the semantic sequence loss training paradigm can be used to
update ASR and SLU models without transcripts, using semantic feedback alone.
- Abstract(参考訳): 音声言語理解(SLU)システムは、音声から意図または名前付き実体の意味だけでなく、転写を抽出し、音声活性化システムの不可欠なコンポーネントです。
SLUモデルは、音声から直接意味を抽出するか、パイプライン付き自動音声認識(ASR)と自然言語理解(NLU)モデルから構成されるが、典型的には、関連するパフォーマンス指標が単語またはセマンティックエラー率であっても、異なるエントロピーの損失によって訓練される。
本研究では,セマンティックエラーのプロキシとして,SLUメトリックに基づく非微分シーケンス損失を提案し,REINFORCEトリックを用いてASRモデルとSLUモデルの訓練を行う。
我々は、カスタムシーケンス損失トレーニングがオープンsluデータセットの最先端であり、大規模プロプライエタリデータセットにおけるasrとnluのパフォーマンスメトリクスの相対的に6%改善することを示す。
また, 意味的フィードバックのみを用いて, ASR と SLU モデルを転写せずに更新するために, セマンティックシーケンス損失訓練パラダイムをいかに利用できるかを示す。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders [13.722028186368737]
本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2023-05-04T15:36:37Z) - Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - End-to-End Spoken Language Understanding using RNN-Transducer ASR [14.267028645397266]
本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。
ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。
論文 参考訳(メタデータ) (2021-06-30T09:20:32Z) - Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces [17.030832205343195]
本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
論文 参考訳(メタデータ) (2020-08-14T02:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。