論文の概要: Accelerating Text Mining Using Domain-Specific Stop Word Lists
- arxiv url: http://arxiv.org/abs/2012.02294v1
- Date: Wed, 18 Nov 2020 17:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 05:23:26.999375
- Title: Accelerating Text Mining Using Domain-Specific Stop Word Lists
- Title(参考訳): ドメイン特化停止語リストを用いたテキストマイニングの高速化
- Authors: Farah Alshanik, Amy Apon, Alexander Herzog, Ilya Safro, Justin
Sybrandt
- Abstract要約: 本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
- 参考スコア(独自算出の注目度): 57.76576681191192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text preprocessing is an essential step in text mining. Removing words that
can negatively impact the quality of prediction algorithms or are not
informative enough is a crucial storage-saving technique in text indexing and
results in improved computational efficiency. Typically, a generic stop word
list is applied to a dataset regardless of the domain. However, many common
words are different from one domain to another but have no significance within
a particular domain. Eliminating domain-specific common words in a corpus
reduces the dimensionality of the feature space, and improves the performance
of text mining tasks. In this paper, we present a novel mathematical approach
for the automatic extraction of domain-specific words called the
hyperplane-based approach. This new approach depends on the notion of low
dimensional representation of the word in vector space and its distance from
hyperplane. The hyperplane-based approach can significantly reduce text
dimensionality by eliminating irrelevant features. We compare the
hyperplane-based approach with other feature selection methods, namely \c{hi}2
and mutual information. An experimental study is performed on three different
datasets and five classification algorithms, and measure the dimensionality
reduction and the increase in the classification performance. Results indicate
that the hyperplane-based approach can reduce the dimensionality of the corpus
by 90% and outperforms mutual information. The computational time to identify
the domain-specific words is significantly lower than mutual information.
- Abstract(参考訳): テキストの前処理はテキストマイニングの重要なステップである。
予測アルゴリズムの品質に悪影響を及ぼす、あるいは十分な情報を持たない単語を除去することは、テキストインデックス作成において重要な保存技術であり、計算効率が向上する。
通常、ドメインに関係なく、一般的な停止語リストがデータセットに適用される。
しかし、多くの共通語はドメインによって異なるが、特定のドメイン内では意味を持たない。
コーパス内でのドメイン固有の共通単語の排除は特徴空間の次元性を減少させ、テキストマイニングタスクの性能を向上させる。
本稿では,超平面的手法と呼ばれるドメイン固有語の自動抽出のための数学的手法を提案する。
この新しいアプローチは、ベクトル空間における単語の低次元表現の概念と超平面からの距離に依存する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除してテキスト次元を著しく削減することができる。
ハイパープレーンに基づくアプローチと,他の特徴選択手法である \c{hi}2 と相互情報との比較を行った。
3つの異なるデータセットと5つの分類アルゴリズムについて実験を行い、次元の縮小と分類性能の向上を計測した。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
ドメイン固有の単語を識別する計算時間は、相互情報よりもかなり低い。
関連論文リスト
- Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps [12.573927420408365]
事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチよりも大幅に優れていた。
本稿では,語彙と単語周波数のギャップを埋めることによる教師なし領域適応手法を提案する。
提案手法は,現在最先端の領域適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T03:58:26Z) - A Curriculum Learning Approach for Multi-domain Text Classification
Using Keyword weight Ranking [17.71297141482757]
本稿では,キーワードウェイトランキングに基づくカリキュラム学習戦略を用いて,マルチドメインテキスト分類モデルの性能を向上させることを提案する。
AmazonのレビューとFDU-MTLデータセットの実験結果から,カリキュラム学習戦略は多分野テキスト分類モデルの性能を効果的に向上することが示された。
論文 参考訳(メタデータ) (2022-10-27T03:15:26Z) - Word Embeddings and Validity Indexes in Fuzzy Clustering [5.063728016437489]
単語の様々なベクトル表現、すなわち単語埋め込みのファジィに基づく解析。
我々は2つのファジィクラスタリングアルゴリズムをカウントベースの単語埋め込みに使用し、異なる手法と次元を持つ。
本研究では,様々なクラスタリング妥当性指標を用いた実験結果を評価し,異なるアルゴリズム変動と異なる埋め込み精度を比較した。
論文 参考訳(メタデータ) (2022-04-26T18:08:19Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Group-Sparse Matrix Factorization for Transfer Learning of Word
Embeddings [31.849734024331283]
本稿では,グループパースペナルティによって構造を生かし,学習ドメイン固有の単語埋め込みを効率的に伝達する直感的な推定手法を提案する。
非コーパス目的関数によって同定される局所最小値はすべて、標準正規化条件下での最小値と統計的に区別できないことを証明した。
論文 参考訳(メタデータ) (2021-04-18T18:19:03Z) - PointFlow: Flowing Semantics Through Points for Aerial Image
Segmentation [96.76882806139251]
本論文では,FPN(Feature Pyramid Network)フレームワークに基づく点親和性伝播モジュールであるPointFlowを提案する。
密接な親和性学習ではなく、隣接する特徴間の選択された点にスパース親和性マップを生成する。
3つの異なる空中セグメンテーションデータセットの実験結果から,提案手法は最先端の汎用セグメンテーション法よりも効率的かつ効率的であることが示唆された。
論文 参考訳(メタデータ) (2021-03-11T09:42:32Z) - Text Information Aggregation with Centrality Attention [86.91922440508576]
本稿では, 固有中央集権自己注意という, 集権重み付けの新たな方法を提案する。
文中のすべての単語に対する完全連結グラフを構築し,各単語の注意点として固有中央性を計算する。
論文 参考訳(メタデータ) (2020-11-16T13:08:48Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。
ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。
親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文 参考訳(メタデータ) (2020-09-26T10:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。