論文の概要: "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in
Conversational Agents
- arxiv url: http://arxiv.org/abs/2104.11070v1
- Date: Wed, 21 Apr 2021 00:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 04:06:14.199992
- Title: "What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in
Conversational Agents
- Title(参考訳): 「文脈は?」
会話エージェントにおけるASR再構成のための長期NLM適応
- Authors: Ashish Shenoy, Sravan Bodapati, Monica Sunkara, Srikanth Ronanki,
Katrin Kirchhoff
- Abstract要約: ターンベースのコンテキスト履歴をリカレント(LSTM)とトランスフォーマXLベースのNLMの両方に組み込むための様々な手法を検討します。
リカレントベースのnlmでは、コンテキストがメカニズムと機能ベースの拡張を継承する。
我々は,事前学習されたマスキング言語モデルからの符号化を活用し,ユーザのオンザフライ音声パターンに文脈的nlmを適用する。
- 参考スコア(独自算出の注目度): 13.586996848831543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Language Models (NLM), when trained and evaluated with context
spanning multiple utterances, have been shown to consistently outperform both
conventional n-gram language models and NLMs that use limited context. In this
paper, we investigate various techniques to incorporate turn based context
history into both recurrent (LSTM) and Transformer-XL based NLMs. For recurrent
based NLMs, we explore context carry over mechanism and feature based
augmentation, where we incorporate other forms of contextual information such
as bot response and system dialogue acts as classified by a Natural Language
Understanding (NLU) model. To mitigate the sharp nearby, fuzzy far away problem
with contextual NLM, we propose the use of attention layer over lexical
metadata to improve feature based augmentation. Additionally, we adapt our
contextual NLM towards user provided on-the-fly speech patterns by leveraging
encodings from a large pre-trained masked language model and performing fusion
with a Transformer-XL based NLM. We test our proposed models using N-best
rescoring of ASR hypotheses of task-oriented dialogues and also evaluate on
downstream NLU tasks such as intent classification and slot labeling. The best
performing model shows a relative WER between 1.6% and 9.1% and a slot labeling
F1 score improvement of 4% over non-contextual baselines.
- Abstract(参考訳): ニューラル言語モデル(NLM)は、複数の発話にまたがる文脈で訓練され評価された場合、従来のn-gram言語モデルと限られた文脈を使用するNLMよりも一貫して優れていることが示されている。
本稿では,ターンベースコンテキスト履歴をLSTM(recurrent)とTransformer-XL(Transformer-XL)ベースのNLMに組み込む様々な手法について検討する。
そこでは、自然言語理解(nlu)モデルによって分類されるボット応答やシステム対話といった、他の形式のコンテキスト情報を取り込む。
近辺でファジィでファジィな遠い問題を文脈的NLMで緩和するために,特徴量に基づく拡張を改善するために,語彙メタデータ上での注目層の利用を提案する。
さらに,事前学習したマスキング言語モデルからの符号化を活用し,transformer-xlベースのnlmと融合することにより,ユーザのオンザフライ音声パターンに文脈的nlmを適用する。
タスク指向対話のASR仮説のN-best Rescoringを用いて提案モデルを検証し、インテント分類やスロットラベリングなどの下流NLUタスクで評価する。
ベストパフォーマンスモデルは1.6%から9.1%の相対werを示し、f1スコアのスロットラベリングは非コンテキストベースラインよりも4%向上している。
関連論文リスト
- Lattice Rescoring Based on Large Ensemble of Complementary Neural
Language Models [50.164379437671904]
本研究では, 音声認識仮説に基づく格子再構成における, 高度なニューラルネットワークモデル (NLM) の大規模なアンサンブルの有効性について検討する。
講義音声コーパスを用いた実験では,8つのNLMを組み合わせ,文脈担持を用いて,ASR 1-bestベースラインから24.4%の単語誤り率を低減した。
論文 参考訳(メタデータ) (2023-12-20T04:52:24Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - GNN-LM: Language Modeling based on Global Contexts via GNN [32.52117529283929]
GNN-LMは、トレーニングコーパス全体において、同様のコンテキストを参照できるようにすることで、バニラニューラル言語モデル(LM)を拡張します。
GNN-LMはWikiText-103で14.8の最先端のパープレクシリティを実現している。
論文 参考訳(メタデータ) (2021-10-17T07:18:21Z) - ASR Adaptation for E-commerce Chatbots using Cross-Utterance Context and
Multi-Task Language Modeling [11.193867567895353]
クロス発話の文脈的手がかりは、音声からドメイン固有の内容語を曖昧にするのに重要な役割を担っている。
本稿では, Transformer-XL Neural Language Model (NLM) の文脈化, 内容語頑健性, ドメイン適応性を改善するための様々な手法について検討する。
我々の最高のNLMリスコラーは、Eコマースオーディオテストセットで19.2%のコンテンツWER削減と6.4%のスロットラベルF1の改善をもたらす。
論文 参考訳(メタデータ) (2021-06-15T21:27:34Z) - Contextual Biasing of Language Models for Speech Recognition in
Goal-Oriented Conversational Agents [11.193867567895353]
ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。
推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。
本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
論文 参考訳(メタデータ) (2021-03-18T15:38:08Z) - On the Effectiveness of Neural Text Generation based Data Augmentation
for Recognition of Morphologically Rich Speech [0.0]
我々は、RNNLMからの知識をテキスト生成に基づくデータ拡張による単一パスBNLMに転送することで、会話音声書き起こしシステムのオンライン性能を大幅に改善した。
第1パスでRNN-BNLMを使用し、第2パスで、オフラインのASR結果をさらに改善できることが示される。
論文 参考訳(メタデータ) (2020-06-09T09:01:04Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。