論文の概要: Lattention: Lattice-attention in ASR rescoring
- arxiv url: http://arxiv.org/abs/2111.10157v1
- Date: Fri, 19 Nov 2021 11:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 15:53:24.727473
- Title: Lattention: Lattice-attention in ASR rescoring
- Title(参考訳): ASR再構成における格子アテンション
- Authors: Prabhat Pandey, Sergio Duarte Torres, Ali Orkan Bayer, Ankur Gandhe,
Volker Leutnant
- Abstract要約: 格子をリカレントネットワークでエンコードし,n-best再コーディングのためのアテンションエンコーダデコーダモデルを訓練する。
格子に着目した再構成モデルは,n-best仮説に着目したモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 4.848938971173454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lattices form a compact representation of multiple hypotheses generated from
an automatic speech recognition system and have been shown to improve
performance of downstream tasks like spoken language understanding and speech
translation, compared to using one-best hypothesis. In this work, we look into
the effectiveness of lattice cues for rescoring n-best lists in second-pass. We
encode lattices with a recurrent network and train an attention encoder-decoder
model for n-best rescoring. The rescoring model with attention to lattices
achieves 4-5% relative word error rate reduction over first-pass and 6-8% with
attention to both lattices and acoustic features. We show that rescoring models
with attention to lattices outperform models with attention to n-best
hypotheses. We also study different ways to incorporate lattice weights in the
lattice encoder and demonstrate their importance for n-best rescoring.
- Abstract(参考訳): 格子は自動音声認識システムから生成された複数の仮説のコンパクトな表現であり、音声言語理解や音声翻訳などの下流タスクの性能は1-best仮説よりも向上することが示されている。
本研究では,第2パスにおけるn-bestリストの再現における格子キューの有効性について検討する。
格子をリカレントネットワークでエンコードし,n-best再コーディングのためのアテンションエンコーダデコーダモデルを訓練する。
格子に着目した再構成モデルは, 格子と音響特性の両方に着目して, 4-5%の単語誤り率と6-8%の相対的な単語誤り率の低減を実現する。
格子に注意を向けたモデルがn-best仮説に注意を向けたモデルよりも優れていることを示す。
また, 格子の重みを格子エンコーダに組み込む方法も検討し, n-best rescoring の重要性を実証した。
関連論文リスト
- E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - An Investigation of Potential Function Designs for Neural CRF [75.79555356970344]
本稿では,ニューラルCRFモデルに対する一連の表現力のあるポテンシャル関数について検討する。
実験により, 隣接する2つのラベルと隣接する2つの単語のベクトル表現に基づく分解された二次ポテンシャル関数が, 常に最高の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-11T07:32:18Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Toward Interpretability of Dual-Encoder Models for Dialogue Response
Suggestions [18.117115200484708]
本稿では、2つのエンコーダから抽出した単語レベルの特徴の上位にアテンション機構を含む注意型二重エンコーダモデルを提案する。
我々は、重要でない単語と望ましいラベルの相互情報を最小化するために、新しい正規化損失を設計する。
実験では、Recall@1の精度と可視性の観点から、提案モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-03-02T21:26:06Z) - Voice trigger detection from LVCSR hypothesis lattices using
bidirectional lattice recurrent neural networks [5.844015313757266]
ニューラルネットワークを用いてサーバ側連続音声認識器の仮説格子を後処理することにより、音声対応パーソナルアシスタントの偽音声トリガを低減する手法を提案する。
まず、既知の手法を用いて、仮説格子からトリガーフレーズの後方確率を推定して検出し、さらに、より明示的にデータ駆動で識別的な方法で格子を処理する統計モデルについて検討する。
論文 参考訳(メタデータ) (2020-02-29T17:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。