論文の概要: Curating Stopwords in Marathi: A TF-IDF Approach for Improved Text Analysis and Information Retrieval
- arxiv url: http://arxiv.org/abs/2406.11029v1
- Date: Sun, 16 Jun 2024 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:23:12.309383
- Title: Curating Stopwords in Marathi: A TF-IDF Approach for Improved Text Analysis and Information Retrieval
- Title(参考訳): Marathiにおける単語の計算:テキスト分析と情報検索の改善のためのTF-IDFアプローチ
- Authors: Rohan Chavan, Gaurav Patil, Vishal Madle, Raviraj Joshi,
- Abstract要約: ストップワードは、文書の意味や重要性を決定するのにはほとんど価値がないと考えられる言語で一般的に使われる単語である。
我々の研究は、マハコルプス(MahaCorpus)を用いてマラティア語で2480万の文で停止語をキュレーションすることを目的としている。
- 参考スコア(独自算出の注目度): 0.4499833362998489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stopwords are commonly used words in a language that are often considered to be of little value in determining the meaning or significance of a document. These words occur frequently in most texts and don't provide much useful information for tasks like sentiment analysis and text classification. English, which is a high-resource language, takes advantage of the availability of stopwords, whereas low-resource Indian languages like Marathi are very limited, standardized, and can be used in available packages, but the number of available words in those packages is low. Our work targets the curation of stopwords in the Marathi language using the MahaCorpus, with 24.8 million sentences. We make use of the TF-IDF approach coupled with human evaluation to curate a strong stopword list of 400 words. We apply the stop word removal to the text classification task and show its efficacy. The work also presents a simple recipe for stopword curation in a low-resource language. The stopwords are integrated into the mahaNLP library and publicly available on https://github.com/l3cube-pune/MarathiNLP .
- Abstract(参考訳): ストップワードは、文書の意味や重要性を決定するのにはほとんど価値がないと考えられる言語で一般的に使われる単語である。
これらの単語は、ほとんどのテキストで頻繁に発生し、感情分析やテキスト分類といったタスクにはあまり有用な情報を提供していない。
一方、Marathiのような低リソースのインドの言語は非常に制限され、標準化されており、利用可能なパッケージで使用できるが、それらのパッケージで利用可能な単語の数は少ない。
我々の研究は、マハコルプス(MahaCorpus)を用いてマラティア語で2480万の文で停止語をキュレーションすることを目的としている。
TF-IDFアプローチと人間の評価を組み合わせることで,400単語の強い停止語リストをキュレートする。
テキスト分類タスクに停止語除去を適用し,その有効性を示す。
この作業は、低リソース言語でのストップワードキュレーションの簡単なレシピも提示している。
ストップワードはmahaNLPライブラリに統合され、https://github.com/l3cube-pune/MarathiNLPで公開されている。
関連論文リスト
- Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text? [38.1823640848362]
大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。
LLMは、英語中心のトークン化や語彙に依存するため、非英語のテキストを生成する際にさらに推論ステップを必要とする。
ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
論文 参考訳(メタデータ) (2024-06-17T12:42:34Z) - KSW: Khmer Stop Word based Dictionary for Keyword Extraction [0.0]
本稿では,Khmer固有のキーワード抽出手法であるKSWについて紹介する。
KSWはこの問題に対処するため、調整済みの停止語辞書を開発し、停止語を削除するための前処理手法を実装した。
実験により、KSWは従来の手法に比べて精度と妥当性が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2024-05-27T17:42:54Z) - Text Categorization Can Enhance Domain-Agnostic Stopword Extraction [3.6048839315645442]
本稿では,自然言語処理(NLP)における停止語抽出におけるテキスト分類の役割について検討する。
MasakhaNEWS, African Stopwords Project, MasakhaPOS のデータセットを利用することで, テキスト分類がドメインに依存しない停止語を, 80%以上の検出成功率で効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-01-24T11:52:05Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Accuracy of the Uzbek stop words detection: a case study on "School
corpus" [0.0]
本稿では,自動生成を目的とした停止語リストの品質評価手法を提案する。
この手法はウズベク語の停止語のリストを自動生成してテストした。
論文 参考訳(メタデータ) (2022-09-15T05:14:31Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Taking Notes on the Fly Helps BERT Pre-training [94.43953312613577]
Takeing Notes on the Fly (TNF) は、事前トレーニング中にフライで稀な単語のメモを取り、次回発生するときにモデルがそれらを理解するのに役立つ。
TNFは、文中のまれな単語によって引き起こされる不適切な意味をカバーするために、クロス文情報を用いるので、より良いデータ利用を提供する。
論文 参考訳(メタデータ) (2020-08-04T11:25:09Z) - Language-Independent Tokenisation Rivals Language-Specific Tokenisation
for Word Similarity Prediction [12.376752724719005]
言語に依存しないトークン化(LIT)メソッドはラベル付き言語リソースや語彙を必要としない。
言語固有のトークン化(LST)手法は、長い歴史と確立された歴史を持ち、慎重に作成された語彙とトレーニングリソースを用いて開発されている。
意味的類似度測定を多種多様な言語を対象とした評価課題として用いた2つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2020-02-25T16:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。