論文の概要: Text Categorization Can Enhance Domain-Agnostic Stopword Extraction
- arxiv url: http://arxiv.org/abs/2401.13398v1
- Date: Wed, 24 Jan 2024 11:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 14:42:05.241789
- Title: Text Categorization Can Enhance Domain-Agnostic Stopword Extraction
- Title(参考訳): テキスト分類はドメインに依存しないストップワード抽出を促進する
- Authors: Houcemeddine Turki, Naome A. Etori, Mohamed Ali Hadj Taieb,
Abdul-Hakeem Omotayo, Chris Chinenye Emezue, Mohamed Ben Aouicha, Ayodele
Awokoya, Falalu Ibrahim Lawan, Doreen Nixdorf
- Abstract要約: 本稿では,自然言語処理(NLP)における停止語抽出におけるテキスト分類の役割について検討する。
MasakhaNEWS, African Stopwords Project, MasakhaPOS のデータセットを利用することで, テキスト分類がドメインに依存しない停止語を, 80%以上の検出成功率で効果的に識別できることが示唆された。
- 参考スコア(独自算出の注目度): 3.6048839315645442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the role of text categorization in streamlining
stopword extraction in natural language processing (NLP), specifically focusing
on nine African languages alongside French. By leveraging the MasakhaNEWS,
African Stopwords Project, and MasakhaPOS datasets, our findings emphasize that
text categorization effectively identifies domain-agnostic stopwords with over
80% detection success rate for most examined languages. Nevertheless,
linguistic variances result in lower detection rates for certain languages.
Interestingly, we find that while over 40% of stopwords are common across news
categories, less than 15% are unique to a single category. Uncommon stopwords
add depth to text but their classification as stopwords depends on context.
Therefore combining statistical and linguistic approaches creates comprehensive
stopword lists, highlighting the value of our hybrid method. This research
enhances NLP for African languages and underscores the importance of text
categorization in stopword extraction.
- Abstract(参考訳): 本稿では,自然言語処理(NLP)における停止語抽出におけるテキスト分類の役割について検討する。
masakhanews, african stopwords project, masakhapos datasetsを活用することで,テキスト分類は,80%以上の検出成功率を持つドメイン非依存ストップワードを効果的に識別できることを強調した。
それでも、言語差は特定の言語に対する検出率を低下させる。
興味深いことに、stopwordsの40%以上がニュースカテゴリに共通しているのに対して、ひとつのカテゴリに固有のものは15%未満である。
一般的なストップワードはテキストに深さを与えるが、ストップワードとしての分類は文脈に依存する。
したがって,統計的手法と言語的アプローチを組み合わせることで,総合的なストップワードリストが作成され,ハイブリッド手法の価値が強調される。
本研究は、アフリカ語におけるNLPを強化し、ストップワード抽出におけるテキスト分類の重要性を強調する。
関連論文リスト
- Curating Stopwords in Marathi: A TF-IDF Approach for Improved Text Analysis and Information Retrieval [0.4499833362998489]
ストップワードは、文書の意味や重要性を決定するのにはほとんど価値がないと考えられる言語で一般的に使われる単語である。
我々の研究は、マハコルプス(MahaCorpus)を用いてマラティア語で2480万の文で停止語をキュレーションすることを目的としている。
論文 参考訳(メタデータ) (2024-06-16T17:59:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Lexicon and Rule-based Word Lemmatization Approach for the Somali
Language [0.0]
レマタイズ(Lemmatization)は、単語の形態的派生を根本形に変化させることによってテキストを正規化する技法である。
本稿では,ソマリ語におけるテキスト・レマティゼーションの先駆者となる。
1247の根語の初期語彙と7173の派生的関連用語に辞書に存在しない単語を補綴する規則が組み込まれている。
論文 参考訳(メタデータ) (2023-08-03T14:31:57Z) - Accuracy of the Uzbek stop words detection: a case study on "School
corpus" [0.0]
本稿では,自動生成を目的とした停止語リストの品質評価手法を提案する。
この手法はウズベク語の停止語のリストを自動生成してテストした。
論文 参考訳(メタデータ) (2022-09-15T05:14:31Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。
何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文 参考訳(メタデータ) (2021-02-03T18:19:16Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Novel Keyword Extraction and Language Detection Approaches [0.6445605125467573]
ファジィ言語マッチングのための高速な文字列トークン化手法を提案する。
処理時間の83.6%削減を実験的に実証した。
我々は、Accept-LanguageヘッダがIPアドレスよりも分類にマッチする確率が14%高いことを発見した。
論文 参考訳(メタデータ) (2020-09-24T17:28:59Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。