論文の概要: Accelerating Text Mining Using Domain-Specific Stop Word Lists
- arxiv url: http://arxiv.org/abs/2012.02294v1
- Date: Wed, 18 Nov 2020 17:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 05:23:26.999375
- Title: Accelerating Text Mining Using Domain-Specific Stop Word Lists
- Title(参考訳): ドメイン特化停止語リストを用いたテキストマイニングの高速化
- Authors: Farah Alshanik, Amy Apon, Alexander Herzog, Ilya Safro, Justin
Sybrandt
- Abstract要約: 本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
- 参考スコア(独自算出の注目度): 57.76576681191192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text preprocessing is an essential step in text mining. Removing words that
can negatively impact the quality of prediction algorithms or are not
informative enough is a crucial storage-saving technique in text indexing and
results in improved computational efficiency. Typically, a generic stop word
list is applied to a dataset regardless of the domain. However, many common
words are different from one domain to another but have no significance within
a particular domain. Eliminating domain-specific common words in a corpus
reduces the dimensionality of the feature space, and improves the performance
of text mining tasks. In this paper, we present a novel mathematical approach
for the automatic extraction of domain-specific words called the
hyperplane-based approach. This new approach depends on the notion of low
dimensional representation of the word in vector space and its distance from
hyperplane. The hyperplane-based approach can significantly reduce text
dimensionality by eliminating irrelevant features. We compare the
hyperplane-based approach with other feature selection methods, namely \c{hi}2
and mutual information. An experimental study is performed on three different
datasets and five classification algorithms, and measure the dimensionality
reduction and the increase in the classification performance. Results indicate
that the hyperplane-based approach can reduce the dimensionality of the corpus
by 90% and outperforms mutual information. The computational time to identify
the domain-specific words is significantly lower than mutual information.
- Abstract(参考訳): テキストの前処理はテキストマイニングの重要なステップである。
予測アルゴリズムの品質に悪影響を及ぼす、あるいは十分な情報を持たない単語を除去することは、テキストインデックス作成において重要な保存技術であり、計算効率が向上する。
通常、ドメインに関係なく、一般的な停止語リストがデータセットに適用される。
しかし、多くの共通語はドメインによって異なるが、特定のドメイン内では意味を持たない。
コーパス内でのドメイン固有の共通単語の排除は特徴空間の次元性を減少させ、テキストマイニングタスクの性能を向上させる。
本稿では,超平面的手法と呼ばれるドメイン固有語の自動抽出のための数学的手法を提案する。
この新しいアプローチは、ベクトル空間における単語の低次元表現の概念と超平面からの距離に依存する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除してテキスト次元を著しく削減することができる。
ハイパープレーンに基づくアプローチと,他の特徴選択手法である \c{hi}2 と相互情報との比較を行った。
3つの異なるデータセットと5つの分類アルゴリズムについて実験を行い、次元の縮小と分類性能の向上を計測した。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
ドメイン固有の単語を識別する計算時間は、相互情報よりもかなり低い。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection [34.217661429283666]
語彙が大きくなるにつれて、ベクトル空間の次元は増加し、それが膨大なモデルサイズに繋がる。
本稿では,単語埋め込み次元の減少について検討する。
本稿では,WordFS という機能選択手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T06:36:09Z) - Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression [15.460141768587663]
データ圧縮と表現に基づくテキスト分類のための軽量な教師付き辞書学習フレームワークを提案する。
我々は,情報ボトルネックの原理を用いて情報理論性能を評価し,情報理論性能を定量化するための新しい指標として情報平面面積ランク(IPAR)を導入する。
論文 参考訳(メタデータ) (2024-04-28T10:11:52Z) - Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps [12.573927420408365]
事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチよりも大幅に優れていた。
本稿では,語彙と単語周波数のギャップを埋めることによる教師なし領域適応手法を提案する。
提案手法は,現在最先端の領域適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T03:58:26Z) - Word Embeddings and Validity Indexes in Fuzzy Clustering [5.063728016437489]
単語の様々なベクトル表現、すなわち単語埋め込みのファジィに基づく解析。
我々は2つのファジィクラスタリングアルゴリズムをカウントベースの単語埋め込みに使用し、異なる手法と次元を持つ。
本研究では,様々なクラスタリング妥当性指標を用いた実験結果を評価し,異なるアルゴリズム変動と異なる埋め込み精度を比較した。
論文 参考訳(メタデータ) (2022-04-26T18:08:19Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Group-Sparse Matrix Factorization for Transfer Learning of Word
Embeddings [31.849734024331283]
本稿では,グループパースペナルティによって構造を生かし,学習ドメイン固有の単語埋め込みを効率的に伝達する直感的な推定手法を提案する。
非コーパス目的関数によって同定される局所最小値はすべて、標準正規化条件下での最小値と統計的に区別できないことを証明した。
論文 参考訳(メタデータ) (2021-04-18T18:19:03Z) - PointFlow: Flowing Semantics Through Points for Aerial Image
Segmentation [96.76882806139251]
本論文では,FPN(Feature Pyramid Network)フレームワークに基づく点親和性伝播モジュールであるPointFlowを提案する。
密接な親和性学習ではなく、隣接する特徴間の選択された点にスパース親和性マップを生成する。
3つの異なる空中セグメンテーションデータセットの実験結果から,提案手法は最先端の汎用セグメンテーション法よりも効率的かつ効率的であることが示唆された。
論文 参考訳(メタデータ) (2021-03-11T09:42:32Z) - Text Information Aggregation with Centrality Attention [86.91922440508576]
本稿では, 固有中央集権自己注意という, 集権重み付けの新たな方法を提案する。
文中のすべての単語に対する完全連結グラフを構築し,各単語の注意点として固有中央性を計算する。
論文 参考訳(メタデータ) (2020-11-16T13:08:48Z) - Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。
ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。
親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文 参考訳(メタデータ) (2020-09-26T10:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。