論文の概要: Thutmose Tagger: Single-pass neural model for Inverse Text Normalization
- arxiv url: http://arxiv.org/abs/2208.00064v1
- Date: Fri, 29 Jul 2022 20:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:46:59.954896
- Title: Thutmose Tagger: Single-pass neural model for Inverse Text Normalization
- Title(参考訳): Thutmose Tagger:逆テキスト正規化のためのシングルパスニューラルモデル
- Authors: Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg
- Abstract要約: 逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
- 参考スコア(独自算出の注目度): 76.87664008338317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse text normalization (ITN) is an essential post-processing step in
automatic speech recognition (ASR). It converts numbers, dates, abbreviations,
and other semiotic classes from the spoken form generated by ASR to their
written forms. One can consider ITN as a Machine Translation task and use
neural sequence-to-sequence models to solve it. Unfortunately, such neural
models are prone to hallucinations that could lead to unacceptable errors. To
mitigate this issue, we propose a single-pass token classifier model that
regards ITN as a tagging task. The model assigns a replacement fragment to
every input token or marks it for deletion or copying without changes. We
present a dataset preparation method based on the granular alignment of ITN
examples. The proposed model is less prone to hallucination errors. The model
is trained on the Google Text Normalization dataset and achieves
state-of-the-art sentence accuracy on both English and Russian test sets.
One-to-one correspondence between tags and input words improves the
interpretability of the model's predictions, simplifies debugging, and allows
for post-processing corrections. The model is simpler than sequence-to-sequence
models and easier to optimize in production settings. The model and the code to
prepare the dataset is published as part of NeMo project.
- Abstract(参考訳): 逆テキスト正規化(ITN)は自動音声認識(ASR)において重要な後処理ステップである。
数字、日付、略語、その他のセミオティックなクラスを、ASRが生成した音声形式からそれらの記述形式に変換する。
itnを機械翻訳タスクと考え、それを解決するために神経シーケンスからシーケンスモデルを使うことができる。
残念なことに、このような神経モデルは、受け入れ難いエラーにつながる幻覚を起こしやすい。
この問題を軽減するため,ITNをタグ付けタスクとみなすシングルパストークン分類器モデルを提案する。
モデルは、すべての入力トークンに置換フラグメントを割り当てるか、変更なしに削除またはコピーのためにマークする。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
提案したモデルは幻覚の誤りが少ない。
このモデルはgoogle text normalizationデータセットでトレーニングされ、英語とロシアのテストセットの両方で最先端の文精度を達成する。
タグと入力ワードの1対1対応により、モデルの予測の解釈性が向上し、デバッグが簡単になり、後処理の修正が可能になる。
このモデルはシーケンスからシーケンスへのモデルよりもシンプルで、運用環境での最適化が容易です。
データセットを作成するためのモデルとコードは、NeMoプロジェクトの一部として公開されている。
関連論文リスト
- Zero-Shot Text Classification via Self-Supervised Tuning [46.9902502503747]
ゼロショットテキスト分類タスクを解決するための自己教師付き学習に基づく新しいパラダイムを提案する。
自己教師付きチューニングという,ラベルのないデータで言語モデルをチューニングする。
我々のモデルは10タスク中7タスクで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-19T05:47:33Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - Capitalization Normalization for Language Modeling with an Accurate and
Efficient Hierarchical RNN Model [12.53710938104476]
本稿では,高速で高精度でコンパクトな2階層型単語と文字に基づくリカレントニューラルネットワークモデルを提案する。
言語モデリングのためのFederated Learningフレームワークでは、 truecaserを使ってユーザ生成テキストを正規化しています。
論文 参考訳(メタデータ) (2022-02-16T16:21:53Z) - Step-unrolled Denoising Autoencoders for Text Generation [17.015573262373742]
本稿では,SUNDAE(Step-unrolled Denoising Autoencoder)というテキスト生成モデルを提案する。
SUNDAEはトークンの列に繰り返し適用され、ランダムな入力から始まり、収束するまで毎回改善される。
拡散法よりも少ないイテレーションで収束する単純な改良演算子を提案する。
論文 参考訳(メタデータ) (2021-12-13T16:00:33Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。