論文の概要: On the performance of phonetic algorithms in microtext normalization
- arxiv url: http://arxiv.org/abs/2402.02591v1
- Date: Sun, 4 Feb 2024 19:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:50:43.918206
- Title: On the performance of phonetic algorithms in microtext normalization
- Title(参考訳): マイクロテキスト正規化における音韻アルゴリズムの性能について
- Authors: Yerai Doval, Manuel Vilares, Jes\'us Vilares
- Abstract要約: マイクロテキスト正規化(microtext normalization)は、非標準マイクロテキストのための前処理ステップである。
音声アルゴリズムは、マイクロテキストを標準テキストに変換するのに使える。
本研究の目的は,候補生成の文脈における最適な音声アルゴリズムを決定することである。
- 参考スコア(独自算出の注目度): 0.5755004576310332
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: User-generated content published on microblogging social networks constitutes
a priceless source of information. However, microtexts usually deviate from the
standard lexical and grammatical rules of the language, thus making its
processing by traditional intelligent systems very difficult. As an answer,
microtext normalization consists in transforming those non-standard microtexts
into standard well-written texts as a preprocessing step, allowing traditional
approaches to continue with their usual processing. Given the importance of
phonetic phenomena in non-standard text formation, an essential element of the
knowledge base of a normalizer would be the phonetic rules that encode these
phenomena, which can be found in the so-called phonetic algorithms.
In this work we experiment with a wide range of phonetic algorithms for the
English language. The aim of this study is to determine the best phonetic
algorithms within the context of candidate generation for microtext
normalization. In other words, we intend to find those algorithms that taking
as input non-standard terms to be normalized allow us to obtain as output the
smallest possible sets of normalization candidates which still contain the
corresponding target standard words. As it will be stated, the choice of the
phonetic algorithm will depend heavily on the capabilities of the candidate
selection mechanism which we usually find at the end of a microtext
normalization pipeline. The faster it can make the right choices among big
enough sets of candidates, the more we can sacrifice on the precision of the
phonetic algorithms in favour of coverage in order to increase the overall
performance of the normalization system.
KEYWORDS: microtext normalization; phonetic algorithm; fuzzy matching;
Twitter; texting
- Abstract(参考訳): マイクロブログソーシャルネットワークで公開されているユーザー生成コンテンツは、価格のない情報源となっている。
しかし、マイクロテキストは通常、言語の標準語彙規則や文法規則から逸脱するので、従来の知的システムによる処理は非常に困難である。
答えとして、マイクロテキストの正規化は、これらの非標準のマイクロテキストを、プリプロセッシングのステップとして標準的なよく書かれたテキストに変換することで成り立っている。
非標準テキスト形成における音素現象の重要性を考えると、正規化器の知識基盤の重要な要素はこれらの現象を符号化する音素規則であり、いわゆる音素アルゴリズムに見られる。
本研究は、英語のための幅広い音声アルゴリズムの実験である。
本研究の目的は,マイクロテキスト正規化のための候補生成における最適音声アルゴリズムを決定することである。
言い換えれば、正規化される入力非標準項を取るアルゴリズムを見つけることによって、対応する標準語を含む最小の正規化候補集合を出力として得ることができる。
述べられているように、音韻アルゴリズムの選択は、通常、マイクロテキスト正規化パイプラインの最後に見つかる候補選択機構の機能に大きく依存します。
十分な数の候補の中から適切な選択をすることができるほど、正規化システム全体の性能を高めるために、カバレッジを優先して音声アルゴリズムの精度を犠牲にすることができる。
KEYWORDS:マイクロテキスト正規化、音声アルゴリズム、ファジィマッチング、Twitter、テキストメッセージ
関連論文リスト
- Phonetically rich corpus construction for a low-resourced language [0.0]
本稿では,低音源言語に対する幅広い音声カバレッジを持つテキストコーパスを作成するための新しい手法を提案する。
提案手法は,三声分布に基づく文選択アルゴリズムまでのテキストデータセットの収集を含む。
アルゴリズムを用いて、同様のサイズのサンプルに対して、異なるトリフォンの比率が55.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T16:36:11Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - An End-to-end Chinese Text Normalization Model based on Rule-guided
Flat-Lattice Transformer [37.0774363352316]
本稿では,漢字を直接入力として受け入れるエンドツーエンドの中国語テキスト正規化モデルを提案する。
また、中国語のテキスト正規化のための、初めて一般公開された大規模データセットもリリースしました。
論文 参考訳(メタデータ) (2022-03-31T11:19:53Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Determinantal Beam Search [75.84501052642361]
ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。
複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットがしばしば望まれる。
ビームサーチを一連の部分決定問題として繰り返し行うことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。
論文 参考訳(メタデータ) (2021-06-14T13:01:46Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - An Unsupervised Normalization Algorithm for Noisy Text: A Case Study for
Information Retrieval and Stance Detection [4.20380265888641]
訓練データや人間の介入を必要としないテキスト正規化のための教師なしアルゴリズムを提案する。
提案アルゴリズムは、異なる言語上のテキストに適用可能であり、機械生成ノイズと人生成ノイズの両方を処理できる。
論文 参考訳(メタデータ) (2021-01-09T06:57:09Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Normalizing Text using Language Modelling based on Phonetics and String
Similarity [0.0]
テキスト正規化を行うための新しい頑健なモデルを提案する。
テキスト中の正規化されていない単語を根本形に置き換えようとする2つのユニークなマスキング戦略を提案する。
本手法の精度は86.7%,83.2%であり,本手法がテキスト正規化に有効であることを示す。
論文 参考訳(メタデータ) (2020-06-25T00:42:39Z) - Investigating Label Bias in Beam Search for Open-ended Text Generation [8.331919991368366]
オープンエンドテキスト生成では、ビームサーチはしばしば繰り返しおよびジェネリックテキストを生成する。
標準Seq2seqモデルは、その局所正規化確率の定式化によりラベルバイアスに悩まされる。
局所正規化最大推定とグローバル正規化シーケンスレベルのトレーニングを組み合わせることで、難易度を犠牲にすることなくラベルバイアスを低減できる。
論文 参考訳(メタデータ) (2020-05-22T05:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。