論文の概要: Internal language model estimation through explicit context vector
learning for attention-based encoder-decoder ASR
- arxiv url: http://arxiv.org/abs/2201.11627v1
- Date: Wed, 26 Jan 2022 07:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 15:16:49.160800
- Title: Internal language model estimation through explicit context vector
learning for attention-based encoder-decoder ASR
- Title(参考訳): 注意型エンコーダデコーダASRにおける明示的文脈ベクトル学習による内部言語モデルの推定
- Authors: Yufei Liu, Rao Ma, Haihua Xu, Yi He, Zejun Ma, Weibin Zhang
- Abstract要約: 本稿では,Lens-Attend-Spell(LAS)モデルに基づく2つの新しい手法を提案する。
実験の結果,提案手法により推定されたILMは最も低いパープレキシティを実現することがわかった。
- 参考スコア(独自算出の注目度): 19.233720469733797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An end-to-end (E2E) speech recognition model implicitly learns a biased
internal language model (ILM) during training. To fused an external LM during
inference, the scores produced by the biased ILM need to be estimated and
subtracted. In this paper we propose two novel approaches to estimate the
biased ILM based on Listen-Attend-Spell (LAS) models. The simpler method is to
replace the context vector of the LAS decoder at every time step with a
learnable vector. The other more advanced method is to use a simple
feed-forward network to directly map query vectors to context vectors, making
the generation of the context vectors independent of the LAS encoder. Both the
learnable vector and the mapping network are trained on the transcriptions of
the training data to minimize the perplexity while all the other parameters of
the LAS model is fixed. Experiments show that the ILMs estimated by the
proposed methods achieve the lowest perplexity. In addition, they also
significantly outperform the shallow fusion method and two previously proposed
Internal Language Model Estimation (ILME) approaches on multiple datasets.
- Abstract(参考訳): エンドツーエンド(e2e)音声認識モデルは、トレーニング中にバイアス付き内部言語モデル(ilm)を暗黙的に学習する。
推論中に外部LMを融合させるには、偏りのあるILMが生み出すスコアを推定・減算する必要がある。
本稿では,Lens-Attend-Spell(LAS)モデルに基づく2つの新しい評価手法を提案する。
より単純な方法は、各ステップでLASデコーダのコンテキストベクトルを学習可能なベクトルに置き換えることである。
もう一つのより進んだ方法は、単純なフィードフォワードネットワークを使用してクエリベクトルを直接コンテキストベクトルにマッピングすることで、LASエンコーダとは独立にコンテキストベクトルを生成することである。
学習可能なベクトルとマッピングネットワークの両方がトレーニングデータの転写に基づいてトレーニングされ、LASモデルの他のパラメータが固定されている間、パープレキシティを最小限に抑える。
実験の結果,提案手法により推定されたILMは最も低いパープレキシティを実現することがわかった。
さらに、thresh fusion法や、以前に提案された複数のデータセットに対するilme(internal language model estimation)アプローチを大きく上回っている。
関連論文リスト
- A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning [49.62044186504516]
文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。
近年の研究では、コンテキストエンコーダがノイズを発生させ、コンテキストの選択に頑健なモデルを実現することが示されている。
本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。
論文 参考訳(メタデータ) (2024-07-03T12:50:49Z) - Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。
因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:01:05Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文 参考訳(メタデータ) (2021-04-12T15:16:03Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。