論文の概要: Normalization of Lithuanian Text Using Regular Expressions
- arxiv url: http://arxiv.org/abs/2312.17660v2
- Date: Mon, 1 Jan 2024 08:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 12:51:17.314409
- Title: Normalization of Lithuanian Text Using Regular Expressions
- Title(参考訳): 正規表現を用いたリトアニア語の正規化
- Authors: Pijus Kasparaitis
- Abstract要約: テキスト正規化は、音声合成システムにおいて不可欠な部分である。
各NSWのセミオティッククラスを特定する必要がある。
リトアニア語に適応したセミオティッククラスの分類が提示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text Normalization is an integral part of any text-to-speech synthesis
system. In a natural language text, there are elements such as numbers, dates,
abbreviations, etc. that belong to other semiotic classes. They are called
non-standard words (NSW) and need to be expanded into ordinary words. For this
purpose, it is necessary to identify the semiotic class of each NSW. The
taxonomy of semiotic classes adapted to the Lithuanian language is presented in
the work. Sets of rules are created for detecting and expanding NSWs based on
regular expressions. Experiments with three completely different data sets were
performed and the accuracy was assessed. Causes of errors are explained and
recommendations are given for the development of text normalization rules.
- Abstract(参考訳): テキスト正規化は、音声合成システムにおいて不可欠な部分である。
自然言語のテキストには、数、日付、略語など他の記号類に属する要素がある。
これらは非標準語(NSW)と呼ばれ、通常の語に拡張する必要がある。
この目的のためには、各NSWのセミオティッククラスを特定する必要がある。
リトアニア語に適応したセミオティッククラスの分類が本書で提示されている。
nswsを正規表現に基づいて検出および拡張するためのルールセットが作成される。
3つの全く異なるデータセットで実験を行い、精度を評価した。
誤りの原因は説明され、テキスト正規化ルールの開発に推奨される。
関連論文リスト
- On the performance of phonetic algorithms in microtext normalization [0.5755004576310332]
マイクロテキスト正規化(microtext normalization)は、非標準マイクロテキストのための前処理ステップである。
音声アルゴリズムは、マイクロテキストを標準テキストに変換するのに使える。
本研究の目的は,候補生成の文脈における最適な音声アルゴリズムを決定することである。
論文 参考訳(メタデータ) (2024-02-04T19:54:44Z) - BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla
Lemmatizer [3.1742013359102175]
本稿では, 文法化のための言語規則を提案し, 辞書と組み合わせて, バングラの補題を設計する。
本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。
補綴器は、手動で注釈付けされたテストデータセットに対して、トレーニングによってテストすると96.36%の精度を達成する。
論文 参考訳(メタデータ) (2023-11-06T13:02:07Z) - A Chat About Boring Problems: Studying GPT-based text normalization [22.64840464909988]
少数のシナリオにおいて,テキスト正規化のための大言語モデルの能力を示す。
LLMによるテキスト正規化は、上位正規化システムよりも40%低い誤差率を達成する。
テキスト正規化エラーの新しい分類法を作成し、GPT-3.5-TurboとGPT-4.0の結果に適用する。
論文 参考訳(メタデータ) (2023-09-23T16:32:59Z) - Learning-to-Rank Meets Language: Boosting Language-Driven Ordering
Alignment for Ordinal Classification [60.28913031192201]
順序分類のための新しい言語駆動順序付け手法を提案する。
事前学習された視覚言語モデルの最近の発展は、人間の言語におけるリッチな順序性を活用するきっかけとなった。
顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,美的評価を含む3つの日常的分類課題の実験は,その有望な性能を示す。
論文 参考訳(メタデータ) (2023-06-24T04:11:31Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Neural semi-Markov CRF for Monolingual Word Alignment [20.897157172049877]
可変長スパンによる単語と句のアライメントを統一するニューラルセミマルコフCRFアライメントモデルを提案する。
また、人間のアノテーションによる新しいベンチマークを作成し、4つの異なるテキストジャンルをカバーし、モノリンガルな単語アライメントモデルを評価する。
論文 参考訳(メタデータ) (2021-06-04T16:04:00Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Normalizing Text using Language Modelling based on Phonetics and String
Similarity [0.0]
テキスト正規化を行うための新しい頑健なモデルを提案する。
テキスト中の正規化されていない単語を根本形に置き換えようとする2つのユニークなマスキング戦略を提案する。
本手法の精度は86.7%,83.2%であり,本手法がテキスト正規化に有効であることを示す。
論文 参考訳(メタデータ) (2020-06-25T00:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。