Fugu-MT 論文翻訳(概要): Contextual Biasing of Language Models for Speech Recognition in Goal-Oriented Conversational Agents

論文の概要: Contextual Biasing of Language Models for Speech Recognition in Goal-Oriented Conversational Agents

arxiv url: http://arxiv.org/abs/2103.10325v2
Date: Fri, 19 Mar 2021 00:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-22 12:05:02.128424
Title: Contextual Biasing of Language Models for Speech Recognition in Goal-Oriented Conversational Agents
Title（参考訳）: 目標指向対話エージェントにおける音声認識のための言語モデルの文脈バイアス
Authors: Ashish Shenoy, Sravan Bodapati, Katrin Kirchhoff
Abstract要約: ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
参考スコア（独自算出の注目度）: 11.193867567895353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Goal-oriented conversational interfaces are designed to accomplish specific tasks and typically have interactions that tend to span multiple turns adhering to a pre-defined structure and a goal. However, conventional neural language models (NLM) in Automatic Speech Recognition (ASR) systems are mostly trained sentence-wise with limited context. In this paper, we explore different ways to incorporate context into a LSTM based NLM in order to model long range dependencies and improve speech recognition. Specifically, we use context carry over across multiple turns and use lexical contextual cues such as system dialog act from Natural Language Understanding (NLU) models and the user provided structure of the chatbot. We also propose a new architecture that utilizes context embeddings derived from BERT on sample utterances provided during inference time. Our experiments show a word error rate (WER) relative reduction of 7% over non-contextual utterance-level NLM rescorers on goal-oriented audio datasets.
Abstract（参考訳）: 目標指向の対話インタフェースは特定のタスクを達成するように設計されており、通常、事前に定義された構造と目標に固執する複数のターンにまたがる相互作用を持つ。しかしながら、ASR(Automatic Speech Recognition)システムにおける従来のニューラル言語モデル(NLM)は、主に限られた文脈で訓練された文量である。本稿では,長期依存をモデル化し,音声認識を改善するために,文脈をLSTMベースのNLMに組み込む方法について検討する。具体的には、複数のターンにまたがってコンテキストを搬送し、自然言語理解(NLU)モデルからのシステムダイアログアクトや、チャットボットのユーザ提供構造などの語彙的コンテキストキューを使用する。また,推測時間に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。実験の結果, 目標指向音声データセット上での非テキストレベルのNLMレコーダよりも単語誤り率 (WER) が7%低下した。

関連論文リスト

Intent-Aware Dialogue Generation and Multi-Task Contrastive Learning for Multi-Turn Intent Classification [6.459396785817196]
Chain-of-Intentは、セルフプレイを通じて意図駆動の会話を生成する。 MINT-CLはマルチタスクコントラスト学習を用いたマルチターンインテント分類のためのフレームワークである。 MINT-Eは多言語対応のマルチターンeコマース対話コーパスである。
論文参考訳（メタデータ） (2024-11-21T15:59:29Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。 We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
Neural paraphrasing by automatically crawled and aligned sentence pairs [11.95795974003684]
ニューラルネットワークベースのパラフレーズ化に対する主な障害は、一致した文とパラフレーズのペアを持つ大きなデータセットの欠如である。本稿では,ニュースサイトやブログサイトが,異なる物語スタイルを用いて同じ出来事を語るという仮定に基づいて,大規模コーパスの自動生成手法を提案する。本稿では,言語制約のある類似性探索手法を提案する。これは,参照文が与えられた場合,数百万のインデックス付き文から最も類似した候補パラフレーズを見つけることができる。
論文参考訳（メタデータ） (2024-02-16T10:40:38Z)
Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。 4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-02-08T16:55:21Z)
Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-01-09T10:39:17Z)
Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文参考訳（メタデータ） (2023-12-15T15:46:02Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。 NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文参考訳（メタデータ） (2020-04-02T18:31:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。