論文の概要: Contextual Biasing of Language Models for Speech Recognition in
Goal-Oriented Conversational Agents
- arxiv url: http://arxiv.org/abs/2103.10325v1
- Date: Thu, 18 Mar 2021 15:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 20:58:41.737665
- Title: Contextual Biasing of Language Models for Speech Recognition in
Goal-Oriented Conversational Agents
- Title(参考訳): 目標指向対話エージェントにおける音声認識のための言語モデルの文脈バイアス
- Authors: Ashish Shenoy, Sravan Bodapati, Katrin Kirchhoff
- Abstract要約: ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。
推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。
本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
- 参考スコア(独自算出の注目度): 11.193867567895353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-oriented conversational interfaces are designed to accomplish specific
tasks and typically have interactions that tend to span multiple turns adhering
to a pre-defined structure and a goal. However, conventional neural language
models (NLM) in Automatic Speech Recognition (ASR) systems are mostly trained
sentence-wise with limited context. In this paper, we explore different ways to
incorporate context into a LSTM based NLM in order to model long range
dependencies and improve speech recognition. Specifically, we use context carry
over across multiple turns and use lexical contextual cues such as system
dialog act from Natural Language Understanding (NLU) models and the user
provided structure of the chatbot. We also propose a new architecture that
utilizes context embeddings derived from BERT on sample utterances provided
during inference time. Our experiments show a word error rate (WER) relative
reduction of 7% over non-contextual utterance-level NLM rescorers on
goal-oriented audio datasets.
- Abstract(参考訳): 目標指向の対話インタフェースは特定のタスクを達成するように設計されており、通常、事前に定義された構造と目標に固執する複数のターンにまたがる相互作用を持つ。
しかしながら、ASR(Automatic Speech Recognition)システムにおける従来のニューラル言語モデル(NLM)は、主に限られた文脈で訓練された文量である。
本稿では,長期依存をモデル化し,音声認識を改善するために,文脈をLSTMベースのNLMに組み込む方法について検討する。
具体的には、複数のターンにまたがってコンテキストを搬送し、自然言語理解(NLU)モデルからのシステムダイアログアクトや、チャットボットのユーザ提供構造などの語彙的コンテキストキューを使用する。
また,推測時間に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。
実験の結果, 目標指向音声データセット上での非テキストレベルのNLMレコーダよりも単語誤り率 (WER) が7%低下した。
関連論文リスト
- Intent-Aware Dialogue Generation and Multi-Task Contrastive Learning for Multi-Turn Intent Classification [6.459396785817196]
Chain-of-Intentは、セルフプレイを通じて意図駆動の会話を生成する。
MINT-CLはマルチタスクコントラスト学習を用いたマルチターンインテント分類のためのフレームワークである。
MINT-Eは多言語対応のマルチターンeコマース対話コーパスである。
論文 参考訳(メタデータ) (2024-11-21T15:59:29Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Neural paraphrasing by automatically crawled and aligned sentence pairs [11.95795974003684]
ニューラルネットワークベースのパラフレーズ化に対する主な障害は、一致した文とパラフレーズのペアを持つ大きなデータセットの欠如である。
本稿では,ニュースサイトやブログサイトが,異なる物語スタイルを用いて同じ出来事を語るという仮定に基づいて,大規模コーパスの自動生成手法を提案する。
本稿では,言語制約のある類似性探索手法を提案する。これは,参照文が与えられた場合,数百万のインデックス付き文から最も類似した候補パラフレーズを見つけることができる。
論文 参考訳(メタデータ) (2024-02-16T10:40:38Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。