論文の概要: A Fast Randomized Algorithm for Massive Text Normalization
- arxiv url: http://arxiv.org/abs/2110.03024v1
- Date: Wed, 6 Oct 2021 19:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:46:48.736421
- Title: A Fast Randomized Algorithm for Massive Text Normalization
- Title(参考訳): 大規模テキスト正規化のための高速ランダム化アルゴリズム
- Authors: Nan Jiang, Chen Luo, Vihan Lakshman, Yesh Dattatreya, Yexiang Xue
- Abstract要約: 大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。
本アルゴリズムは, 単語間のジャカード類似性を利用して補正結果を提案する。
実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
- 参考スコア(独自算出の注目度): 26.602776972067936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many popular machine learning techniques in natural language processing and
data mining rely heavily on high-quality text sources. However real-world text
datasets contain a significant amount of spelling errors and improperly
punctuated variants where the performance of these models would quickly
deteriorate. Moreover, real-world, web-scale datasets contain hundreds of
millions or even billions of lines of text, where the existing text cleaning
tools are prohibitively expensive to execute over and may require an overhead
to learn the corrections. In this paper, we present FLAN, a scalable randomized
algorithm to clean and canonicalize massive text data. Our algorithm relies on
the Jaccard similarity between words to suggest correction results. We
efficiently handle the pairwise word-to-word comparisons via Locality Sensitive
Hashing (LSH). We also propose a novel stabilization process to address the
issue of hash collisions between dissimilar words, which is a consequence of
the randomized nature of LSH and is exacerbated by the massive scale of
real-world datasets. Compared with existing approaches, our method is more
efficient, both asymptotically and in empirical evaluations, and does not rely
on additional features, such as lexical/phonetic similarity or word embedding
features. In addition, FLAN does not require any annotated data or supervised
learning. We further theoretically show the robustness of our algorithm with
upper bounds on the false positive and false negative rates of corrections. Our
experimental results on real-world datasets demonstrate the efficiency and
efficacy of FLAN.
- Abstract(参考訳): 自然言語処理やデータマイニングで一般的な機械学習技術の多くは、高品質なテキストソースに依存している。
しかし、実世界のテキストデータセットには、大量のスペルエラーと、これらのモデルの性能が急速に悪化する不適切な変動が含まれている。
さらに、実世界のWebスケールデータセットには、数十億行、あるいは数十億行のテキストが含まれている。
本稿では,大規模テキストデータのクリーン化とカノニカル化を行うスケーラブルなランダム化アルゴリズム flan を提案する。
本アルゴリズムは, 単語間のジャカード類似性を利用して補正結果を提案する。
我々は,局所性センシティブハッシュ(lsh)による単語対単語比較を効率的に処理する。
また,LSHのランダム化の性質の結果として生じる異種単語間のハッシュ衝突の問題に対処し,現実のデータセットの大規模化によって悪化する新たな安定化手法を提案する。
従来の手法と比較して,本手法は漸近的,経験的評価ともに効率的であり,語彙的・音声的類似性や単語埋め込み機能など追加機能に依存しない。
加えて、FLANは注釈付きデータや教師付き学習を必要としない。
さらに、補正の偽正負率と偽負率に上限を持つアルゴリズムのロバスト性を理論的に示す。
実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
関連論文リスト
- Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression [15.460141768587663]
データ圧縮と表現に基づくテキスト分類のための軽量な教師付き辞書学習フレームワークを提案する。
我々は,情報ボトルネックの原理を用いて情報理論性能を評価し,情報理論性能を定量化するための新しい指標として情報平面面積ランク(IPAR)を導入する。
論文 参考訳(メタデータ) (2024-04-28T10:11:52Z) - GuideWalk: A Novel Graph-Based Word Embedding for Enhanced Text Classification [0.0]
テキストデータの処理には埋め込みが必要であり、テキストの内容を数値ベクトルに変換する方法である。
新たなテキスト埋め込み手法,すなわちガイド遷移確率行列(GTPM)モデルを提案する。
提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。
論文 参考訳(メタデータ) (2024-04-25T18:48:11Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - A Deep Learning Anomaly Detection Method in Textual Data [0.45687771576879593]
本稿では,従来の機械学習アルゴリズムと組み合わせたディープラーニングとトランスフォーマーアーキテクチャを提案する。
我々は、異常を予測するために、文変換器、オート、ロジスティック回帰、距離計算など、複数の機械学習手法を使用した。
論文 参考訳(メタデータ) (2022-11-25T05:18:13Z) - Simple Alternating Minimization Provably Solves Complete Dictionary
Learning [13.056764072568749]
本稿では、与えられた信号の集合を学習辞書からの原子の線形結合として再パラメータ化することを目的とする完全な辞書問題に焦点を当てる。
理論的および実践的な辞書学習には、実用的なアルゴリズムに対する理論的保証の欠如と、大規模データセットを扱う際のスケーラビリティの低下という2つの大きな課題がある。
論文 参考訳(メタデータ) (2022-10-23T18:30:45Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。