論文の概要: Thutmose Tagger: Single-pass neural model for Inverse Text Normalization
- arxiv url: http://arxiv.org/abs/2208.00064v1
- Date: Fri, 29 Jul 2022 20:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:46:59.954896
- Title: Thutmose Tagger: Single-pass neural model for Inverse Text Normalization
- Title(参考訳): Thutmose Tagger:逆テキスト正規化のためのシングルパスニューラルモデル
- Authors: Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg
- Abstract要約: 逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
- 参考スコア(独自算出の注目度): 76.87664008338317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse text normalization (ITN) is an essential post-processing step in
automatic speech recognition (ASR). It converts numbers, dates, abbreviations,
and other semiotic classes from the spoken form generated by ASR to their
written forms. One can consider ITN as a Machine Translation task and use
neural sequence-to-sequence models to solve it. Unfortunately, such neural
models are prone to hallucinations that could lead to unacceptable errors. To
mitigate this issue, we propose a single-pass token classifier model that
regards ITN as a tagging task. The model assigns a replacement fragment to
every input token or marks it for deletion or copying without changes. We
present a dataset preparation method based on the granular alignment of ITN
examples. The proposed model is less prone to hallucination errors. The model
is trained on the Google Text Normalization dataset and achieves
state-of-the-art sentence accuracy on both English and Russian test sets.
One-to-one correspondence between tags and input words improves the
interpretability of the model's predictions, simplifies debugging, and allows
for post-processing corrections. The model is simpler than sequence-to-sequence
models and easier to optimize in production settings. The model and the code to
prepare the dataset is published as part of NeMo project.
- Abstract(参考訳): 逆テキスト正規化(ITN)は自動音声認識(ASR)において重要な後処理ステップである。
数字、日付、略語、その他のセミオティックなクラスを、ASRが生成した音声形式からそれらの記述形式に変換する。
itnを機械翻訳タスクと考え、それを解決するために神経シーケンスからシーケンスモデルを使うことができる。
残念なことに、このような神経モデルは、受け入れ難いエラーにつながる幻覚を起こしやすい。
この問題を軽減するため,ITNをタグ付けタスクとみなすシングルパストークン分類器モデルを提案する。
モデルは、すべての入力トークンに置換フラグメントを割り当てるか、変更なしに削除またはコピーのためにマークする。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
提案したモデルは幻覚の誤りが少ない。
このモデルはgoogle text normalizationデータセットでトレーニングされ、英語とロシアのテストセットの両方で最先端の文精度を達成する。
タグと入力ワードの1対1対応により、モデルの予測の解釈性が向上し、デバッグが簡単になり、後処理の修正が可能になる。
このモデルはシーケンスからシーケンスへのモデルよりもシンプルで、運用環境での最適化が容易です。
データセットを作成するためのモデルとコードは、NeMoプロジェクトの一部として公開されている。
関連論文リスト
- Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Zero-Shot Text Classification via Self-Supervised Tuning [46.9902502503747]
ゼロショットテキスト分類タスクを解決するための自己教師付き学習に基づく新しいパラダイムを提案する。
自己教師付きチューニングという,ラベルのないデータで言語モデルをチューニングする。
我々のモデルは10タスク中7タスクで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-19T05:47:33Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - Step-unrolled Denoising Autoencoders for Text Generation [17.015573262373742]
本稿では,SUNDAE(Step-unrolled Denoising Autoencoder)というテキスト生成モデルを提案する。
SUNDAEはトークンの列に繰り返し適用され、ランダムな入力から始まり、収束するまで毎回改善される。
拡散法よりも少ないイテレーションで収束する単純な改良演算子を提案する。
論文 参考訳(メタデータ) (2021-12-13T16:00:33Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。