論文の概要: Non-Standard Vietnamese Word Detection and Normalization for
Text-to-Speech
- arxiv url: http://arxiv.org/abs/2209.02971v1
- Date: Wed, 7 Sep 2022 07:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:24:58.938755
- Title: Non-Standard Vietnamese Word Detection and Normalization for
Text-to-Speech
- Title(参考訳): 非標準ベトナム語単語の検出と正規化
- Authors: Huu-Tien Dang, Thi-Hai-Yen Vuong, Xuan-Hieu Phan
- Abstract要約: テキストを音声形式に変換するための2段階正規化手法を提案する。
第1フェーズでは、モデルベースのタグが非標準語(NSW)を検出するように設計されている。
第2フェーズでは,ハッシュタグ,メール,URL,連絡先名を分割する辞書ベースの最大マッチングアルゴリズムを提案する。
CRFは8.15%,BiLSTM-CNN-CRFタグは7.11%,BERT-BiGRU-CRFタグは6.67%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Converting written texts into their spoken forms is an essential problem in
any text-to-speech (TTS) systems. However, building an effective text
normalization solution for a real-world TTS system face two main challenges:
(1) the semantic ambiguity of non-standard words (NSWs), e.g., numbers, dates,
ranges, scores, abbreviations, and (2) transforming NSWs into pronounceable
syllables, such as URL, email address, hashtag, and contact name. In this
paper, we propose a new two-phase normalization approach to deal with these
challenges. First, a model-based tagger is designed to detect NSWs. Then,
depending on NSW types, a rule-based normalizer expands those NSWs into their
final verbal forms. We conducted three empirical experiments for NSW detection
using Conditional Random Fields (CRFs), BiLSTM-CNN-CRF, and BERT-BiGRU-CRF
models on a manually annotated dataset including 5819 sentences extracted from
Vietnamese news articles. In the second phase, we propose a forward
lexicon-based maximum matching algorithm to split down the hashtag, email, URL,
and contact name. The experimental results of the tagging phase show that the
average F1 scores of the BiLSTM-CNN-CRF and CRF models are above 90.00%,
reaching the highest F1 of 95.00% with the BERT-BiGRU-CRF model. Overall, our
approach has low sentence error rates, at 8.15% with CRF and 7.11% with
BiLSTM-CNN-CRF taggers, and only 6.67% with BERT-BiGRU-CRF tagger.
- Abstract(参考訳): テキストを音声形式に変換することは、TTSシステムにおいて重要な問題である。
しかし、現実世界のTSシステムのための効果的なテキスト正規化ソリューションを構築するには、(1) 数字、日付、範囲、スコア、略語、(2) NSWをURL、メールアドレス、ハッシュタグ、連絡先名などの発音可能な音節に変換するなど、非標準語(NSW)の意味的あいまいさに直面する。
本稿では,これらの課題に対処する新しい二相正規化手法を提案する。
まず、モデルベースのタグはNSWを検出するように設計されている。
そして、規則に基づく正規化器は、NSWの種類に応じて、それらのNSWを最終動詞形式に拡張する。
ベトナムのニュース記事から抽出した5819文を含む手動注釈データセットを用いて,条件付きランダムフィールド(CRF),BiLSTM-CNN-CRF,BERT-BiGRU-CRFモデルを用いたNSW検出実験を行った。
第2フェーズでは,ハッシュタグ,メール,URL,連絡先名を分割する,前方レキシコンに基づく最大マッチングアルゴリズムを提案する。
その結果,bilstm-cnn-crfおよびcrfモデルの平均f1得点は90.00%を超え,bert-bigru-crfモデルでは95.00%に達した。
提案手法は,CRFが8.15%,BiLSTM-CNN-CRFタグが7.11%,BERT-BiGRU-CRFタグが6.67%であった。
関連論文リスト
- Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - Large Language Model (LLM) AI text generation detection based on transformer deep learning algorithm [0.9004420912552793]
トランスフォーマーモデルを用いてAIテキスト生成を検出するツールを開発する。
ディープラーニングモデルは、テキスト分類やシーケンスラベリングタスクのためにLSTM、Transformer、CNNなどのレイヤを組み合わせる。
このモデルはAI生成テキストの99%の予測精度を持ち、精度は0.99、リコールは1、f1スコアは0.99であり、非常に高い分類精度を達成する。
論文 参考訳(メタデータ) (2024-04-06T06:22:45Z) - Automatic Textual Normalization for Hate Speech Detection [0.8990550886501417]
ソーシャルメディアデータには、幅広い非標準語(NSW)が含まれている。
ベトナム語に対する現在の最先端の手法は、語彙正規化の問題としてこの問題に対処している。
私たちのアプローチは単純で、Seq2Seq(Seq2Seq)モデルのみを使用します。
論文 参考訳(メタデータ) (2023-11-12T14:01:38Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Multi-blank Transducers for Speech Recognition [49.6154259349501]
提案手法では,出力時に2つ以上の入力フレームを消費する空白記号を新たに導入する。
付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。
複数の言語とデータセットの実験により、マルチブランクRNN-T法は、相対速度が+90%/+139%以上になることを示した。
論文 参考訳(メタデータ) (2022-11-04T16:24:46Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z) - Neural semi-Markov CRF for Monolingual Word Alignment [20.897157172049877]
可変長スパンによる単語と句のアライメントを統一するニューラルセミマルコフCRFアライメントモデルを提案する。
また、人間のアノテーションによる新しいベンチマークを作成し、4つの異なるテキストジャンルをカバーし、モノリンガルな単語アライメントモデルを評価する。
論文 参考訳(メタデータ) (2021-06-04T16:04:00Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。