論文の概要: Tree-constrained Pointer Generator for End-to-end Contextual Speech
Recognition
- arxiv url: http://arxiv.org/abs/2109.00627v2
- Date: Fri, 3 Sep 2021 09:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 11:12:13.848233
- Title: Tree-constrained Pointer Generator for End-to-end Contextual Speech
Recognition
- Title(参考訳): 終端文脈音声認識のための木制約ポインタージェネレータ
- Authors: Guangzhi Sun, Chao Zhang, Philip C. Woodland
- Abstract要約: TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。
TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
- 参考スコア(独自算出の注目度): 16.160767678589895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual knowledge is important for real-world automatic speech recognition
(ASR) applications. In this paper, a novel tree-constrained pointer generator
(TCPGen) component is proposed that incorporates such knowledge as a list of
biasing words into both attention-based encoder-decoder and transducer
end-to-end ASR models in a neural-symbolic way. TCPGen structures the biasing
words into an efficient prefix tree to serve as its symbolic input and creates
a neural shortcut between the tree and the final ASR output distribution to
facilitate recognising biasing words during decoding. Systems were trained and
evaluated on the Librispeech corpus where biasing words were extracted at the
scales of an utterance, a chapter, or a book to simulate different application
scenarios. Experimental results showed that TCPGen consistently improved word
error rates (WERs) compared to the baselines, and in particular, achieved
significant WER reductions on the biasing words. TCPGen is highly efficient: it
can handle 5,000 biasing words and distractors and only add a small overhead to
memory use and computation cost.
- Abstract(参考訳): 文脈知識は実世界の音声認識(ASR)アプリケーションにおいて重要である。
本稿では,アテンションベースのエンコーダデコーダとトランスデューサのエンド・ツー・エンドASRモデルの両方に,単語のバイアスリストなどの知識を組み込んだ新しいツリー制約ポインタジェネレータ(TCPGen)を提案する。
TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするために、ツリーと最終的なASR出力分布の間の神経ショートカットを生成する。
システムは、異なるアプリケーションシナリオをシミュレートするために、発話、章、書籍のスケールで偏りのある単語を抽出する、Librispeech corpusで訓練され、評価された。
実験の結果,TCPGenはベースラインと比較して単語誤り率(WER)を一貫して改善し,特に偏りのある単語に対して顕著なWER削減を実現した。
TCPGenは非常に効率的で、5000の偏りのあるワードとイントラクタを処理でき、メモリ使用量と計算コストに小さなオーバーヘッドを加えるだけである。
関連論文リスト
- Phoneme-aware Encoding for Prefix-tree-based Contextual ASR [45.161909551392085]
Tree-Constrained Pointer Generator (TCPGen)はこの目的を約束している。
音素認識符号化で拡張することで、異常な発音の単語をよりよく認識することを提案する。
論文 参考訳(メタデータ) (2023-12-15T07:37:09Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Graph Neural Networks for Contextual ASR with the Tree-Constrained
Pointer Generator [9.053645441056256]
本稿では,グラフニューラルネットワーク(GNN)符号化を用いたエンドツーエンドのコンテキストASRを実現するための革新的な手法を提案する。
GNNエンコーディングは、各ツリーノードでのASR復号処理において、将来のワードピースのルックアヘッドを促進する。
Librispeech と AMI corpus を用いて,視覚的な文脈的 ASR パイプラインに従ってシステム性能を評価した。
論文 参考訳(メタデータ) (2023-05-30T08:20:58Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Neuro-Symbolic Causal Reasoning Meets Signaling Game for Emergent
Semantic Communications [71.63189900803623]
創発的SCシステムフレームワークを提案し,創発的言語設計のためのシグナリングゲームと因果推論のためのニューロシンボリック(NeSy)人工知能(AI)アプローチで構成されている。
ESCシステムは、意味情報、信頼性、歪み、類似性の新たな指標を強化するように設計されている。
論文 参考訳(メタデータ) (2022-10-21T15:33:37Z) - Tree-constrained Pointer Generator with Graph Neural Network Encodings
for Contextual Speech Recognition [19.372248692745167]
本稿では,木制約ポインタジェネレータ (TCPGen) コンポーネントにおけるグラフニューラルネットワーク (GNN) のエンド・ツー・エンドコンテキスト ASR への利用を提案する。
GNNエンコーディングのTCPGenは、元のTCPGenと比較して、バイアスのある単語のWERを15%削減した。
論文 参考訳(メタデータ) (2022-07-02T15:12:18Z) - Minimising Biasing Word Errors for Contextual ASR with the
Tree-Constrained Pointer Generator [19.372248692745167]
高評価長尾語における音声認識誤りの低減には文脈知識が不可欠である。
本稿では,木制約付きポインタジェネレータ(TCPGen)コンポーネントを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:40:50Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Knowledge Transfer from Large-scale Pretrained Language Models to
End-to-end Speech Recognizers [13.372686722688325]
エンドツーエンド音声認識の訓練には、常に書き起こされた発話が必要である。
本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:02:24Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。