論文の概要: Graph Neural Networks for Contextual ASR with the Tree-Constrained
Pointer Generator
- arxiv url: http://arxiv.org/abs/2305.18824v1
- Date: Tue, 30 May 2023 08:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:39:31.146101
- Title: Graph Neural Networks for Contextual ASR with the Tree-Constrained
Pointer Generator
- Title(参考訳): tree-constrained pointer generatorを用いた文脈asrのためのグラフニューラルネットワーク
- Authors: Guangzhi Sun, Chao Zhang, Phil Woodland
- Abstract要約: 本稿では,グラフニューラルネットワーク(GNN)符号化を用いたエンドツーエンドのコンテキストASRを実現するための革新的な手法を提案する。
GNNエンコーディングは、各ツリーノードでのASR復号処理において、将来のワードピースのルックアヘッドを促進する。
Librispeech と AMI corpus を用いて,視覚的な文脈的 ASR パイプラインに従ってシステム性能を評価した。
- 参考スコア(独自算出の注目度): 9.053645441056256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The incorporation of biasing words obtained through contextual knowledge is
of paramount importance in automatic speech recognition (ASR) applications.
This paper proposes an innovative method for achieving end-to-end contextual
ASR using graph neural network (GNN) encodings based on the tree-constrained
pointer generator method. GNN node encodings facilitate lookahead for future
word pieces in the process of ASR decoding at each tree node by incorporating
information about all word pieces on the tree branches rooted from it. This
results in a more precise prediction of the generation probability of the
biasing words. The study explores three GNN encoding techniques, namely tree
recursive neural networks, graph convolutional network (GCN), and GraphSAGE,
along with different combinations of the complementary GCN and GraphSAGE
structures. The performance of the systems was evaluated using the Librispeech
and AMI corpus, following the visual-grounded contextual ASR pipeline. The
findings indicate that using GNN encodings achieved consistent and significant
reductions in word error rate (WER), particularly for words that are rare or
have not been seen during the training process. Notably, the most effective
combination of GNN encodings obtained more than 60% WER reduction for rare and
unseen words compared to standard end-to-end systems.
- Abstract(参考訳): 文脈知識によって得られる偏り語を組み込むことは、音声認識(ASR)の応用において最重要となる。
本稿では,木制約ポインタ生成法に基づくグラフニューラルネットワーク(GNN)エンコーディングを用いた,エンドツーエンドのコンテキストASRを実現するための革新的な手法を提案する。
gnnノードエンコーディングは、木枝のすべての単語片に関する情報を取り入れることで、各木ノードでasr復号を行う過程で、将来の単語片のルックアヘッドを容易にする。
これにより、偏りのある単語の生成確率をより正確に予測できる。
本研究では,木再帰ニューラルネットワーク,グラフ畳み込みネットワーク(GCN),グラフSAGEという3つのGNN符号化手法と,補完的なGCNとGraphSAGE構造の組み合わせについて検討した。
Librispeech と AMI corpus を用いて,視覚的な文脈的 ASR パイプラインに従ってシステムの性能を評価した。
以上の結果から,gnnエンコーディングを用いた単語誤り率 (wer) は,特に訓練過程において稀な,あるいは見当たらない単語に対して,一貫して有意な低減を達成したことが示唆された。
特に、GNNエンコーディングの最も効果的な組み合わせは、標準のエンドツーエンドシステムと比較して、稀で見えない単語に対して60%以上のWER削減を得た。
関連論文リスト
- DEGREE: Decomposition Based Explanation For Graph Neural Networks [55.38873296761104]
我々は,GNN予測に対する忠実な説明を提供するためにDGREEを提案する。
GNNの情報生成と集約機構を分解することにより、DECREEは入力グラフの特定のコンポーネントのコントリビューションを最終的な予測に追跡することができる。
また,従来の手法で見過ごされるグラフノード間の複雑な相互作用を明らかにするために,サブグラフレベルの解釈アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-05-22T10:29:52Z) - Tree-constrained Pointer Generator with Graph Neural Network Encodings
for Contextual Speech Recognition [19.372248692745167]
本稿では,木制約ポインタジェネレータ (TCPGen) コンポーネントにおけるグラフニューラルネットワーク (GNN) のエンド・ツー・エンドコンテキスト ASR への利用を提案する。
GNNエンコーディングのTCPGenは、元のTCPGenと比較して、バイアスのある単語のWERを15%削減した。
論文 参考訳(メタデータ) (2022-07-02T15:12:18Z) - GNNRank: Learning Global Rankings from Pairwise Comparisons via Directed
Graph Neural Networks [68.61934077627085]
本稿では,グラフ埋め込みを学習可能なGNNと互換性のあるモデリングフレームワークであるGNNRankを紹介する。
既存の手法と比較して,我々の手法が競争力があり,しばしば優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-02-01T04:19:50Z) - TextRGNN: Residual Graph Neural Networks for Text Classification [13.912147013558846]
TextRGNNは改良されたGNN構造であり、畳み込みネットワークの深さを深くする残差接続を導入している。
我々の構造はより広いノード受容場を得ることができ、ノード特徴の過度な平滑化を効果的に抑制できる。
コーパスレベルであれテキストレベルであれ、分類精度を大幅に向上させ、幅広いテキスト分類データセット上でSOTA性能を達成することができる。
論文 参考訳(メタデータ) (2021-12-30T13:48:58Z) - TENT: Text Classification Based on ENcoding Tree Learning [9.927112304745542]
我々は,テキスト分類性能の向上と,計算能力への依存度低減を図るため,TENTを提案する。
具体的には、まず各テキストに対して依存分析グラフを構築し、次に各グラフを対応する符号化木に変換する。
実験結果から,本手法は複数のデータセットにおいて,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-10-05T13:55:47Z) - Tree-constrained Pointer Generator for End-to-end Contextual Speech
Recognition [16.160767678589895]
TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。
TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
論文 参考訳(メタデータ) (2021-09-01T21:41:59Z) - Graph Neural Networks for Natural Language Processing: A Survey [64.36633422999905]
本稿では,自然言語処理のためのグラフニューラルネットワーク(GNN)について概観する。
我々は,グラフ構築,グラフ表現学習,グラフベースエンコーダ・デコーダモデルという3つの軸に沿って,NLP用GNNの既存の研究を組織する,NLP用GNNの新しい分類法を提案する。
論文 参考訳(メタデータ) (2021-06-10T23:59:26Z) - Enhance Information Propagation for Graph Neural Network by
Heterogeneous Aggregations [7.3136594018091134]
グラフニューラルネットワークは、ディープラーニングの成功の継続として出現している。
ヘテロジニアスアグリゲーションを組み合わせることで,GNN層間の情報伝達を促進することを提案する。
我々は,多くのグラフ分類ベンチマークにおいて,HAG-Netの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2021-02-08T08:57:56Z) - Binarized Graph Neural Network [65.20589262811677]
我々は二項化グラフニューラルネットワークを開発し、二項化ネットワークパラメータを用いてノードのバイナリ表現を学習する。
提案手法は既存のGNNベースの埋め込み手法にシームレスに統合できる。
実験により、提案された二項化グラフニューラルネットワーク、すなわちBGNは、時間と空間の両方の観点から、桁違いに効率的であることが示されている。
論文 参考訳(メタデータ) (2020-04-19T09:43:14Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z) - EdgeNets:Edge Varying Graph Neural Networks [179.99395949679547]
本稿では、EdgeNetの概念を通じて、最先端グラフニューラルネットワーク(GNN)を統一する一般的なフレームワークを提案する。
EdgeNetはGNNアーキテクチャであり、異なるノードが異なるパラメータを使って異なる隣人の情報を測定することができる。
これは、ノードが実行でき、既存のグラフ畳み込みニューラルネットワーク(GCNN)とグラフアテンションネットワーク(GAT)の1つの定式化の下で包含できる一般的な線形で局所的な操作である。
論文 参考訳(メタデータ) (2020-01-21T15:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。