論文の概要: Character-Aware Attention-Based End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2001.01795v1
- Date: Mon, 6 Jan 2020 22:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 01:53:12.724130
- Title: Character-Aware Attention-Based End-to-End Speech Recognition
- Title(参考訳): 文字認識アテンションに基づくエンドツーエンド音声認識
- Authors: Zhong Meng, Yashesh Gaur, Jinyu Li, Yifan Gong
- Abstract要約: 単語とサブワード単位(WSU)を出力として予測することは、エンド・ツー・エンド音声認識において注意に基づくエンコーダ・デコーダモデルに有効であることが示されている。
本稿では,各WSU埋め込みを構成文字の埋め込みを要約して計算する新しい文字認識型AEDモデルを提案する。
CA-AEDでは、形態学的に類似したWSUの埋め込みは、CA-RNNを介して自然に直接相関する。
- 参考スコア(独自算出の注目度): 45.43522675189193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting words and subword units (WSUs) as the output has shown to be
effective for the attention-based encoder-decoder (AED) model in end-to-end
speech recognition. However, as one input to the decoder recurrent neural
network (RNN), each WSU embedding is learned independently through context and
acoustic information in a purely data-driven fashion. Little effort has been
made to explicitly model the morphological relationships among WSUs. In this
work, we propose a novel character-aware (CA) AED model in which each WSU
embedding is computed by summarizing the embeddings of its constituent
characters using a CA-RNN. This WSU-independent CA-RNN is jointly trained with
the encoder, the decoder and the attention network of a conventional AED to
predict WSUs. With CA-AED, the embeddings of morphologically similar WSUs are
naturally and directly correlated through the CA-RNN in addition to the
semantic and acoustic relations modeled by a traditional AED. Moreover, CA-AED
significantly reduces the model parameters in a traditional AED by replacing
the large pool of WSU embeddings with a much smaller set of character
embeddings. On a 3400 hours Microsoft Cortana dataset, CA-AED achieves up to
11.9% relative WER improvement over a strong AED baseline with 27.1% fewer
model parameters.
- Abstract(参考訳): 単語とサブワード単位(WSU)を出力として予測することは、エンドツーエンド音声認識における注意に基づくエンコーダデコーダ(AED)モデルに有効であることが示されている。
しかし、デコーダリカレントニューラルネットワーク(RNN)への1つの入力として、各WSU埋め込みは、コンテキストと音響情報を純粋にデータ駆動方式で独立に学習する。
WSU間の形態的関係を明示的にモデル化する努力はほとんど行われていない。
本稿では、各WSU埋め込みをCA-RNNを用いてその構成文字の埋め込みを要約することにより計算する新しい文字認識(CA)AEDモデルを提案する。
このWSUに依存しないCA-RNNは、従来のAEDのエンコーダ、デコーダ、アテンションネットワークと共同で訓練され、WSUを予測する。
CA-AEDでは、形態学的に類似したWSUの埋め込みは、従来のAEDでモデル化された意味的および音響的関係に加えて、CA-RNNを介して自然に、直接的に相関する。
さらにCA-AEDは、WSU埋め込みの大きなプールをはるかに小さな文字埋め込みに置き換えることで、従来のAEDのモデルパラメータを著しく削減します。
3400時間のMicrosoft Cortanaデータセットでは、CA-AEDはモデルパラメータを27.1%削減した強力なAIDベースラインよりも11.9%の相対的なWER改善を実現している。
関連論文リスト
- Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation [13.16188747098854]
本稿では,新しい注目型エンコーダデコーダ(HAED)音声認識モデルを提案する。
本モデルでは,アコースティックモデルと言語モデルとを分離し,従来のテキストベース言語モデル適応技術の利用を可能にする。
提案したHAEDモデルは,言語モデル適応にドメイン外テキストデータを使用する場合,相対的単語誤り率(WER)が23%向上することが実証された。
論文 参考訳(メタデータ) (2023-09-14T01:07:36Z) - Semi-Supervised and Long-Tailed Object Detection with CascadeMatch [91.86787064083012]
そこで我々はCascadeMatchと呼ばれる新しい擬似ラベル型検出器を提案する。
我々の検出器は、プログレッシブな信頼しきい値を持つ多段検出ヘッドを備えたカスケードネットワークアーキテクチャを備えている。
CascadeMatchは、長い尾のオブジェクト検出の処理において、既存の最先端の半教師付きアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:09:25Z) - Chain-based Discriminative Autoencoders for Speech Recognition [16.21321835306968]
音声認識のための識別オートエンコーダ(DcAE)の3つの新しいバージョンを提案する。
まず,分類的クロスエントロピーと地上の真理と予測された三音状態列の相互情報の両方を考慮に入れた新たな目的関数を用いる。
頑健な音声認識に適用するために、我々はc-DcAEを階層構造と並列構造に拡張し、hc-DcAEとpc-DcAEを生成する。
論文 参考訳(メタデータ) (2022-03-25T14:51:48Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement [4.395837214164745]
本稿では,エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合する
ベンチマークのChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈におけるより良い特徴学習を強化していることがわかった。
論文 参考訳(メタデータ) (2022-02-09T15:47:07Z) - Improving the fusion of acoustic and text representations in RNN-T [35.43599666228086]
我々は、より表現力のある表現を生成するために、ゲーティング、バイリニアプーリング、およびそれらを結合ネットワークで組み合わせることを提案する。
提案手法の併用により, 単語誤り率を4%-5%削減できることを示す。
論文 参考訳(メタデータ) (2022-01-25T11:20:50Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - A Novel Deep Learning Architecture for Decoding Imagined Speech from EEG [2.4063592468412267]
我々は、ディープニューラルネットワーク(DNN)を用いて、"in"と"cooperate"の単語を分類する新しいアーキテクチャを提案する。
9つの脳波チャンネルは、下層の皮質活動を最もよく捉え、共通空間パターンを用いて選択される。
我々は最先端の結果に匹敵する精度を達成した。
論文 参考訳(メタデータ) (2020-03-19T00:57:40Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。