論文の概要: Tree-constrained Pointer Generator with Graph Neural Network Encodings
for Contextual Speech Recognition
- arxiv url: http://arxiv.org/abs/2207.00857v1
- Date: Sat, 2 Jul 2022 15:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 16:31:59.153362
- Title: Tree-constrained Pointer Generator with Graph Neural Network Encodings
for Contextual Speech Recognition
- Title(参考訳): 文脈音声認識のためのグラフニューラルネットワーク符号化を用いた木制約ポインタ生成
- Authors: Guangzhi Sun, Chao Zhang, Philip C. Woodland
- Abstract要約: 本稿では,木制約ポインタジェネレータ (TCPGen) コンポーネントにおけるグラフニューラルネットワーク (GNN) のエンド・ツー・エンドコンテキスト ASR への利用を提案する。
GNNエンコーディングのTCPGenは、元のTCPGenと比較して、バイアスのある単語のWERを15%削減した。
- 参考スコア(独自算出の注目度): 19.372248692745167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating biasing words obtained as contextual knowledge is critical for
many automatic speech recognition (ASR) applications. This paper proposes the
use of graph neural network (GNN) encodings in a tree-constrained pointer
generator (TCPGen) component for end-to-end contextual ASR. By encoding the
biasing words in the prefix-tree with a tree-based GNN, lookahead for future
wordpieces in end-to-end ASR decoding is achieved at each tree node by
incorporating information about all wordpieces on the tree branches rooted from
it, which allows a more accurate prediction of the generation probability of
the biasing words. Systems were evaluated on the Librispeech corpus using
simulated biasing tasks, and on the AMI corpus by proposing a novel
visual-grounded contextual ASR pipeline that extracts biasing words from slides
alongside each meeting. Results showed that TCPGen with GNN encodings achieved
about a further 15% relative WER reduction on the biasing words compared to the
original TCPGen, with a negligible increase in the computation cost for
decoding.
- Abstract(参考訳): 多くの自動音声認識(ASR)アプリケーションにおいて、文脈知識として得られるバイアス語を組み込むことが重要である。
本稿では,木制約付きポインタジェネレータ(TCPGen)コンポーネントにおけるグラフニューラルネットワーク(GNN)のエンド・ツー・エンドコンテキストASRへの応用を提案する。
プレフィックスツリー内のバイアスワードを木ベースのgnnで符号化することにより、根元にある木の枝のすべてのワードピースに関する情報を組み込むことにより、各ツリーノードにおいて、エンドツーエンドのasrデコードにおける将来のワードピースのルックアヘッドを実現し、バイアスワードの発生確率をより正確に予測することができる。
リブリスピーチ・コーパスでは,シミュレーションバイアスタスクを用いてシステムが評価され,amiコーパスでは,各ミーティングに並行してスライドからバイアスワードを抽出する新たな視野付き文脈asrパイプラインが提案されている。
結果,gnnエンコーディングを用いたtcpgenは,従来のtcpgenに比べてバイアスワードの約15%削減を達成し,復号化のための計算コストが著しく増加した。
関連論文リスト
- Phoneme-aware Encoding for Prefix-tree-based Contextual ASR [45.161909551392085]
Tree-Constrained Pointer Generator (TCPGen)はこの目的を約束している。
音素認識符号化で拡張することで、異常な発音の単語をよりよく認識することを提案する。
論文 参考訳(メタデータ) (2023-12-15T07:37:09Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Graph Neural Networks for Contextual ASR with the Tree-Constrained
Pointer Generator [9.053645441056256]
本稿では,グラフニューラルネットワーク(GNN)符号化を用いたエンドツーエンドのコンテキストASRを実現するための革新的な手法を提案する。
GNNエンコーディングは、各ツリーノードでのASR復号処理において、将来のワードピースのルックアヘッドを促進する。
Librispeech と AMI corpus を用いて,視覚的な文脈的 ASR パイプラインに従ってシステム性能を評価した。
論文 参考訳(メタデータ) (2023-05-30T08:20:58Z) - A Scalable Graph Neural Network Decoder for Short Block Codes [49.25571364253986]
エッジ重み付きグラフニューラルネットワーク(EW-GNN)に基づく短絡符号の復号化アルゴリズムを提案する。
EW-GNNデコーダは、繰り返しメッセージパッシング構造を持つタナーグラフで動作する。
EW-GNNデコーダは,復号誤り率の観点から,BP法および深層学習に基づくBP法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-13T17:13:12Z) - Minimising Biasing Word Errors for Contextual ASR with the
Tree-Constrained Pointer Generator [19.372248692745167]
高評価長尾語における音声認識誤りの低減には文脈知識が不可欠である。
本稿では,木制約付きポインタジェネレータ(TCPGen)コンポーネントを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:40:50Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - TENT: Text Classification Based on ENcoding Tree Learning [9.927112304745542]
我々は,テキスト分類性能の向上と,計算能力への依存度低減を図るため,TENTを提案する。
具体的には、まず各テキストに対して依存分析グラフを構築し、次に各グラフを対応する符号化木に変換する。
実験結果から,本手法は複数のデータセットにおいて,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-10-05T13:55:47Z) - Tree-constrained Pointer Generator for End-to-end Contextual Speech
Recognition [16.160767678589895]
TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。
TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
論文 参考訳(メタデータ) (2021-09-01T21:41:59Z) - Select, Extract and Generate: Neural Keyphrase Generation with
Layer-wise Coverage Attention [75.44523978180317]
本稿では,2つの主要成分からなるニューラルキーフレーズ生成モデルであるemphSEG-Netを提案する。
科学的およびWeb文書から得られた7つのキーフレーズ生成ベンチマークの実験結果は、SEG-Netが最先端のニューラル生成手法よりも大きなマージンで優れていることを示している。
論文 参考訳(メタデータ) (2020-08-04T18:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。