論文の概要: Shallow Fusion of Weighted Finite-State Transducer and Language Model
for Text Normalization
- arxiv url: http://arxiv.org/abs/2203.15917v1
- Date: Tue, 29 Mar 2022 21:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 04:33:57.886173
- Title: Shallow Fusion of Weighted Finite-State Transducer and Language Model
for Text Normalization
- Title(参考訳): 重み付き有限状態トランスデューサの浅い融合とテキスト正規化のための言語モデル
- Authors: Evelina Bakhturina, Yang Zhang, Boris Ginsburg
- Abstract要約: ルールベースとニューラルシステムの利点を組み合わせた新しいハイブリッドアプローチを提案する。
まず、非決定論的WFSTはすべての正規化候補を出力し、次にニューラルネットワークモデルが最良の候補を選択する。
既存の最先端のTNモデルに匹敵する、あるいは優れた結果が得られる。
- 参考スコア(独自算出の注目度): 13.929356163132558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text normalization (TN) systems in production are largely rule-based using
weighted finite-state transducers (WFST). However, WFST-based systems struggle
with ambiguous input when the normalized form is context-dependent. On the
other hand, neural text normalization systems can take context into account but
they suffer from unrecoverable errors and require labeled normalization
datasets, which are hard to collect. We propose a new hybrid approach that
combines the benefits of rule-based and neural systems. First, a
non-deterministic WFST outputs all normalization candidates, and then a neural
language model picks the best one -- similar to shallow fusion for automatic
speech recognition. While the WFST prevents unrecoverable errors, the language
model resolves contextual ambiguity. The approach is easy to extend and we show
it is effective. It achieves comparable or better results than existing
state-of-the-art TN models.
- Abstract(参考訳): テキスト正規化(TN)システムは主に、重み付き有限状態トランスデューサ(WFST)を用いたルールベースである。
しかし、WFSTベースのシステムは、正規化形式が文脈依存である場合、あいまいな入力に悩まされる。
一方、ニューラルネットワークの正規化システムはコンテキストを考慮に入れることができるが、回復不能なエラーに悩まされ、収集が困難であるラベル付き正規化データセットを必要とする。
ルールベースとニューラルシステムの利点を組み合わせた新しいハイブリッドアプローチを提案する。
まず、非決定論的WFSTはすべての正規化候補を出力し、次にニューラルネットワークモデルが最適なものを選ぶ。
WFSTは発見不可能なエラーを防ぐが、言語モデルは文脈の曖昧さを解決する。
このアプローチは簡単に拡張でき、効果的であることを示します。
既存の最先端のTNモデルと同等またはより良い結果が得られる。
関連論文リスト
- Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm [45.42075576656938]
文脈バイアスとは、音声認識システムを希少な実体に偏り付ける問題を指す。
パターンマッチングのためのKnuth-Morris-Prattアルゴリズムに基づく文脈バイアスのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T22:50:10Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Categorizing Semantic Representations for Neural Machine Translation [53.88794787958174]
ソースの文脈化表現に分類を導入する。
主な考え方は、スパーシリティとオーバーフィッティングを減らして一般化を強化することである。
MTデータセットを用いた実験により,提案手法は構成一般化誤差率を24%削減することを示した。
論文 参考訳(メタデータ) (2022-10-13T04:07:08Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - An End-to-end Chinese Text Normalization Model based on Rule-guided
Flat-Lattice Transformer [37.0774363352316]
本稿では,漢字を直接入力として受け入れるエンドツーエンドの中国語テキスト正規化モデルを提案する。
また、中国語のテキスト正規化のための、初めて一般公開された大規模データセットもリリースしました。
論文 参考訳(メタデータ) (2022-03-31T11:19:53Z) - Neural-FST Class Language Model for End-to-End Speech Recognition [30.670375747577694]
エンドツーエンド音声認識のためのニューラルFSTクラス言語モデル(NFCLM)を提案する。
その結果,NFCLMは単語誤り率においてNNLMを15.8%上回っていることがわかった。
論文 参考訳(メタデータ) (2022-01-28T00:20:57Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Neural Inverse Text Normalization [11.240669509034298]
逆テキスト正規化のための効率的かつ堅牢なニューラルソリューションを提案する。
言語の専門家が手作業でカリキュラムを作成する必要なく、他の言語に簡単に拡張できることが示される。
プリトレーニングと融合したトランスベースモデルは、複数のデータセットで一貫して低いwerを達成する。
論文 参考訳(メタデータ) (2021-02-12T07:53:53Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Learning Likelihoods with Conditional Normalizing Flows [54.60456010771409]
条件正規化フロー(CNF)はサンプリングと推論において効率的である。
出力空間写像に対する基底密度が入力 x 上で条件づけられた CNF について、条件密度 p(y|x) をモデル化する。
論文 参考訳(メタデータ) (2019-11-29T19:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。