論文の概要: An Unsupervised Normalization Algorithm for Noisy Text: A Case Study for
Information Retrieval and Stance Detection
- arxiv url: http://arxiv.org/abs/2101.03303v1
- Date: Sat, 9 Jan 2021 06:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 07:28:06.481544
- Title: An Unsupervised Normalization Algorithm for Noisy Text: A Case Study for
Information Retrieval and Stance Detection
- Title(参考訳): 雑音テキストの教師なし正規化アルゴリズム:情報検索とスタンス検出を事例として
- Authors: Anurag Roy, Shalmoli Ghosh, Kripabandhu Ghosh, Saptarshi Ghosh
- Abstract要約: 訓練データや人間の介入を必要としないテキスト正規化のための教師なしアルゴリズムを提案する。
提案アルゴリズムは、異なる言語上のテキストに適用可能であり、機械生成ノイズと人生成ノイズの両方を処理できる。
- 参考スコア(独自算出の注目度): 4.20380265888641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large fraction of textual data available today contains various types of
'noise', such as OCR noise in digitized documents, noise due to informal
writing style of users on microblogging sites, and so on. To enable tasks such
as search/retrieval and classification over all the available data, we need
robust algorithms for text normalization, i.e., for cleaning different kinds of
noise in the text. There have been several efforts towards cleaning or
normalizing noisy text; however, many of the existing text normalization
methods are supervised and require language-dependent resources or large
amounts of training data that is difficult to obtain. We propose an
unsupervised algorithm for text normalization that does not need any training
data / human intervention. The proposed algorithm is applicable to text over
different languages, and can handle both machine-generated and human-generated
noise. Experiments over several standard datasets show that text normalization
through the proposed algorithm enables better retrieval and stance detection,
as compared to that using several baseline text normalization methods.
Implementation of our algorithm can be found at
https://github.com/ranarag/UnsupClean.
- Abstract(参考訳): 現在利用可能なテキストデータの多くは、デジタル化された文書のOCRノイズ、マイクロブログサイトのユーザによる非公式な書き込みスタイルによるノイズなど、様々な種類の「ノイズ」を含んでいる。
検索/検索やすべての利用可能なデータの分類などのタスクを可能にするためには、テキストの正規化、すなわちテキスト内の様々な種類のノイズを浄化するための堅牢なアルゴリズムが必要である。
ノイズの多いテキストのクリーニングや正規化への取り組みはいくつかあるが、既存のテキスト正規化手法の多くは、言語に依存したリソースや、入手が困難な大量のトレーニングデータを必要とする。
訓練データや人間の介入を必要としないテキスト正規化のための教師なしアルゴリズムを提案する。
提案アルゴリズムは、異なる言語上のテキストに適用でき、機械生成ノイズと人生成ノイズの両方を処理できる。
いくつかの標準データセットに対する実験により、提案アルゴリズムによるテキスト正規化は、複数のベースラインテキスト正規化手法と比較して、より良い検索と姿勢検出を可能にすることが示された。
アルゴリズムの実装はhttps://github.com/ranarag/unsupcleanで確認できます。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - GuideWalk: A Novel Graph-Based Word Embedding for Enhanced Text Classification [0.0]
テキストデータの処理には埋め込みが必要であり、テキストの内容を数値ベクトルに変換する方法である。
新たなテキスト埋め込み手法,すなわちガイド遷移確率行列(GTPM)モデルを提案する。
提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。
論文 参考訳(メタデータ) (2024-04-25T18:48:11Z) - On the performance of phonetic algorithms in microtext normalization [0.5755004576310332]
マイクロテキスト正規化(microtext normalization)は、非標準マイクロテキストのための前処理ステップである。
音声アルゴリズムは、マイクロテキストを標準テキストに変換するのに使える。
本研究の目的は,候補生成の文脈における最適な音声アルゴリズムを決定することである。
論文 参考訳(メタデータ) (2024-02-04T19:54:44Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - A Deep Learning Anomaly Detection Method in Textual Data [0.45687771576879593]
本稿では,従来の機械学習アルゴリズムと組み合わせたディープラーニングとトランスフォーマーアーキテクチャを提案する。
我々は、異常を予測するために、文変換器、オート、ロジスティック回帰、距離計算など、複数の機械学習手法を使用した。
論文 参考訳(メタデータ) (2022-11-25T05:18:13Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - A Fast Randomized Algorithm for Massive Text Normalization [26.602776972067936]
大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。
本アルゴリズムは, 単語間のジャカード類似性を利用して補正結果を提案する。
実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-06T19:18:17Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Contextual Text Denoising with Masked Language Models [21.923035129334373]
そこで本研究では,既使用マスキング言語モデルに基づく文脈記述型音声認識アルゴリズムを提案する。
提案アルゴリズムはモデルの再学習を必要とせず,任意のNLPシステムに統合可能である。
論文 参考訳(メタデータ) (2019-10-30T18:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。