論文の概要: Normalizing Text using Language Modelling based on Phonetics and String
Similarity
- arxiv url: http://arxiv.org/abs/2006.14116v1
- Date: Thu, 25 Jun 2020 00:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:57:18.552351
- Title: Normalizing Text using Language Modelling based on Phonetics and String
Similarity
- Title(参考訳): 音声学と文字列類似性に基づく言語モデルによるテキストの正規化
- Authors: Fenil Doshi, Jimit Gandhi, Deep Gosalia and Sudhir Bagul
- Abstract要約: テキスト正規化を行うための新しい頑健なモデルを提案する。
テキスト中の正規化されていない単語を根本形に置き換えようとする2つのユニークなマスキング戦略を提案する。
本手法の精度は86.7%,83.2%であり,本手法がテキスト正規化に有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media networks and chatting platforms often use an informal version of
natural text. Adversarial spelling attacks also tend to alter the input text by
modifying the characters in the text. Normalizing these texts is an essential
step for various applications like language translation and text to speech
synthesis where the models are trained over clean regular English language. We
propose a new robust model to perform text normalization.
Our system uses the BERT language model to predict the masked words that
correspond to the unnormalized words. We propose two unique masking strategies
that try to replace the unnormalized words in the text with their root form
using a unique score based on phonetic and string similarity metrics.We use
human-centric evaluations where volunteers were asked to rank the normalized
text. Our strategies yield an accuracy of 86.7% and 83.2% which indicates the
effectiveness of our system in dealing with text normalization.
- Abstract(参考訳): ソーシャルメディアネットワークやチャットプラットフォームは、しばしば非公式の自然テキストを使用する。
逆スペル攻撃は、テキスト中の文字を変更することで入力テキストを変更する傾向がある。
これらのテキストを正規化することは、言語翻訳やテキストから音声合成への様々なアプリケーションにとって重要なステップである。
テキスト正規化を行うための新しいロバストモデルを提案する。
本システムでは,非正規化単語に対応するマスク単語の予測にbert言語モデルを用いる。
本研究では,テキスト中の正規化されていない単語を,音韻的・文字列的類似度指標に基づくユニークなスコアを用いて根本形式に置き換えようとする2つのユニークなマスキング手法を提案する。
我々の戦略は86.7%と83.2%の精度を示し,テキスト正規化処理におけるシステムの有効性を示している。
関連論文リスト
- Historical German Text Normalization Using Type- and Token-Based Language Modeling [0.0]
本報告では, パラレルコーパスで訓練した1700-1900年頃のドイツ語文文の正規化システムを提案する。
提案システムは,トランスフォーマー言語モデルを用いて,エンコーダ・デコーダモデルと事前学習した因果言語モデルを組み合わせて,これらの正規化を文脈内で調整する。
広範に評価した結果,提案システムでは,より大規模な完全エンドツーエンドの文ベース正規化システムに匹敵し,事前学習したTransformer大言語モデルの微調整を行うことができた。
論文 参考訳(メタデータ) (2024-09-04T16:14:05Z) - FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts [0.0]
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
論文 参考訳(メタデータ) (2024-07-27T05:04:49Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - On the performance of phonetic algorithms in microtext normalization [0.5755004576310332]
マイクロテキスト正規化(microtext normalization)は、非標準マイクロテキストのための前処理ステップである。
音声アルゴリズムは、マイクロテキストを標準テキストに変換するのに使える。
本研究の目的は,候補生成の文脈における最適な音声アルゴリズムを決定することである。
論文 参考訳(メタデータ) (2024-02-04T19:54:44Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - A Chat About Boring Problems: Studying GPT-based text normalization [22.64840464909988]
少数のシナリオにおいて,テキスト正規化のための大言語モデルの能力を示す。
LLMによるテキスト正規化は、上位正規化システムよりも40%低い誤差率を達成する。
テキスト正規化エラーの新しい分類法を作成し、GPT-3.5-TurboとGPT-4.0の結果に適用する。
論文 参考訳(メタデータ) (2023-09-23T16:32:59Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Neural semi-Markov CRF for Monolingual Word Alignment [20.897157172049877]
可変長スパンによる単語と句のアライメントを統一するニューラルセミマルコフCRFアライメントモデルを提案する。
また、人間のアノテーションによる新しいベンチマークを作成し、4つの異なるテキストジャンルをカバーし、モノリンガルな単語アライメントモデルを評価する。
論文 参考訳(メタデータ) (2021-06-04T16:04:00Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。