論文の概要: Effects of term weighting approach with and without stop words removing
on Arabic text classification
- arxiv url: http://arxiv.org/abs/2402.14867v1
- Date: Wed, 21 Feb 2024 11:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:01:48.736757
- Title: Effects of term weighting approach with and without stop words removing
on Arabic text classification
- Title(参考訳): アラビア語テキスト分類における停止語除去と非停止語の重み付け手法の効果
- Authors: Esra'a Alhenawi, Ruba Abu Khurma, Pedro A. Castillo, Maribel G. Arenas
- Abstract要約: 本研究では,2項重み付け法と項重み付け法が停止語を除去した場合のテキストの分類方法に与える影響を比較検討した。
全ての指標に対して、停止語除去を伴う周波数特徴重み付け手法は二分法よりも優れている。
このデータから、同じフレーズ重み付け手法を用いて、停止語除去が分類精度を高めることは明らかである。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifying text is a method for categorizing documents into pre-established
groups. Text documents must be prepared and represented in a way that is
appropriate for the algorithms used for data mining prior to classification. As
a result, a number of term weighting strategies have been created in the
literature to enhance text categorization algorithms' functionality. This study
compares the effects of Binary and Term frequency weighting feature
methodologies on the text's classification method when stop words are
eliminated once and when they are not. In recognition of assessing the effects
of prior weighting of features approaches on classification results in terms of
accuracy, recall, precision, and F-measure values, we used an Arabic data set
made up of 322 documents divided into six main topics (agriculture, economy,
health, politics, science, and sport), each of which contains 50 documents,
with the exception of the health category, which contains 61 documents. The
results demonstrate that for all metrics, the term frequency feature weighting
approach with stop word removal outperforms the binary approach, while for
accuracy, recall, and F-Measure, the binary approach outperforms the TF
approach without stop word removal. However, for precision, the two approaches
produce results that are very similar. Additionally, it is clear from the data
that, using the same phrase weighting approach, stop word removing increases
classification accuracy.
- Abstract(参考訳): テキスト分類は、文書を既定のグループに分類する方法である。
テキスト文書は、分類の前にデータマイニングに使用されるアルゴリズムに適した方法で準備され、表現されなければならない。
その結果、テキスト分類アルゴリズムの機能を強化するために、文献で多くの用語重み付け戦略が作成されている。
本研究は,2項重み付け法と2項重み付け法が,停止語が一度削除された場合にテキストの分類方法に与える影響を比較した。
特徴の事前重み付けによる分類結果の正確性,記憶力,正確性,f-測定値の面での評価には,6つの主要なトピック(農業,経済,健康,政治,科学,スポーツ)に分けられた322の文書からなるアラビア語データセットを使用し,それぞれ50の文書を含むが,61の文書を含む健康カテゴリを除き,それぞれ50の文書を含む。
その結果,すべての測定値において,ストップワード除去による単語頻度重み付けアプローチがバイナリアプローチを上回り,精度,リコール,f-測定では,ストップワード除去を伴わないtfアプローチを上回った。
しかし、正確さのために、2つのアプローチは、非常によく似た結果を生み出す。
さらに、同じフレーズ重み付け手法を用いて、停止語除去が分類精度を高めることは、データから明らかである。
関連論文リスト
- Detection of tortured phrases in scientific literature [0.0]
本稿では,科学的論文からいわゆる拷問句を抽出する様々な自動検出手法を提案する。
87のリコール値と.61の精度で、検証のためにドメインの専門家に提出される新しい拷問句を検索することができる。
論文 参考訳(メタデータ) (2024-02-02T08:15:43Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Quantitative Stopword Generation for Sentiment Analysis via Recursive
and Iterative Deletion [2.0305676256390934]
ストップワードは意味情報をほとんど持たず、しばしばデータセットのサイズを減らすためにテキストデータから削除される。
特定のNLPタスクに対して効率的な停止語セットを生成するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T03:04:10Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Detect and Classify -- Joint Span Detection and Classification for
Health Outcomes [15.496885113949252]
単語レベル情報と文レベル情報の両方を用いて,結果スパン検出と結果型分類を同時に行う手法を提案する。
健康結果検出のためのいくつかのベンチマークデータセットの実験結果から,我々のモデルはデカップリング法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-04-15T21:47:15Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Research on Annotation Rules and Recognition Algorithm Based on Phrase
Window [4.334276223622026]
フレーズウィンドウに基づくラベリングルールを提案し,それに対応するフレーズ認識アルゴリズムを設計する。
ラベル付けルールでは、フレーズを最小単位とし、文を7種類のネスト可能なフレーズタイプに分割し、フレーズ間の文法的依存関係を示す。
対応するアルゴリズムは、画像中の対象領域を識別するアイデアに基づいて、文中の様々なフレーズの開始位置と終了位置を見つけることができる。
論文 参考訳(メタデータ) (2020-07-07T00:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。