論文の概要: Lexicon and Rule-based Word Lemmatization Approach for the Somali
Language
- arxiv url: http://arxiv.org/abs/2308.01785v1
- Date: Thu, 3 Aug 2023 14:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 13:47:43.429117
- Title: Lexicon and Rule-based Word Lemmatization Approach for the Somali
Language
- Title(参考訳): ソマリア語における語彙と規則に基づく単語補間アプローチ
- Authors: Shafie Abdi Mohamed, Muhidin Abdullahi Mohamed
- Abstract要約: レマタイズ(Lemmatization)は、単語の形態的派生を根本形に変化させることによってテキストを正規化する技法である。
本稿では,ソマリ語におけるテキスト・レマティゼーションの先駆者となる。
1247の根語の初期語彙と7173の派生的関連用語に辞書に存在しない単語を補綴する規則が組み込まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lemmatization is a Natural Language Processing (NLP) technique used to
normalize text by changing morphological derivations of words to their root
forms. It is used as a core pre-processing step in many NLP tasks including
text indexing, information retrieval, and machine learning for NLP, among
others. This paper pioneers the development of text lemmatization for the
Somali language, a low-resource language with very limited or no prior
effective adoption of NLP methods and datasets. We especially develop a lexicon
and rule-based lemmatizer for Somali text, which is a starting point for a
full-fledged Somali lemmatization system for various NLP tasks. With
consideration of the language morphological rules, we have developed an initial
lexicon of 1247 root words and 7173 derivationally related terms enriched with
rules for lemmatizing words not present in the lexicon. We have tested the
algorithm on 120 documents of various lengths including news articles, social
media posts, and text messages. Our initial results demonstrate that the
algorithm achieves an accuracy of 57\% for relatively long documents (e.g. full
news articles), 60.57\% for news article extracts, and high accuracy of 95.87\%
for short texts such as social media messages.
- Abstract(参考訳): レマトゼーション(英: Lemmatization)は、自然言語処理(NLP)技法で、単語の形態的導出をその語形に変化させることによってテキストを正規化する。
テキストインデックス作成、情報検索、NLPのための機械学習など、多くのNLPタスクにおけるコア前処理ステップとして使用される。
本稿では,nlp手法とデータセットの事前適用が限定的あるいは全くない低リソース言語であるソマリ言語のためのテキスト補間の開発を先導する。
特にソマリ語テキストの辞書と規則に基づく補題化手法を開発し,多種多様なNLPタスクのための完全なソマリ補題化システムの出発点となる。
言語形態規則を考慮し,辞書に存在しない単語を要約する規則に富んだ1247の語根語と7173の語根語の初期語彙を開発した。
われわれはこのアルゴリズムを、ニュース記事、ソーシャルメディア投稿、テキストメッセージなど、さまざまな長さの文書120件でテストした。
最初の結果は、比較的長い文書(例えば、ニュース記事)では57.7%、ニュース記事抽出では60.57\%、ソーシャルメディアメッセージのような短いテキストでは95.87\%の精度を達成していることを示している。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Text Categorization Can Enhance Domain-Agnostic Stopword Extraction [3.6048839315645442]
本稿では,自然言語処理(NLP)における停止語抽出におけるテキスト分類の役割について検討する。
MasakhaNEWS, African Stopwords Project, MasakhaPOS のデータセットを利用することで, テキスト分類がドメインに依存しない停止語を, 80%以上の検出成功率で効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-01-24T11:52:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Automatic Textual Normalization for Hate Speech Detection [0.8990550886501417]
ソーシャルメディアデータには、幅広い非標準語(NSW)が含まれている。
ベトナム語に対する現在の最先端の手法は、語彙正規化の問題としてこの問題に対処している。
私たちのアプローチは単純で、Seq2Seq(Seq2Seq)モデルのみを使用します。
論文 参考訳(メタデータ) (2023-11-12T14:01:38Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Evaluating Input Representation for Language Identification in
Hindi-English Code Mixed Text [4.4904382374090765]
コードミックステキストは複数の言語で書かれたテキストからなる。
人は自然に現地の言語と英語のようなグローバルな言語を組み合わせる傾向がある。
本研究では,ヒンディー語と英語の混成テキストのコード混成文における言語識別に着目した。
論文 参考訳(メタデータ) (2020-11-23T08:08:09Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - LSCP: Enhanced Large Scale Colloquial Persian Language Understanding [2.7249643773851724]
ラージスケール・コロクィアル・ペルシア語データセット」は、低リソース言語におけるコロクィアル言語を記述することを目的としている。
提案したコーパスは,2700万のツイートに解析木,音声タグ,感情の極性,5つの言語による翻訳を付加した1億2000万文からなる。
論文 参考訳(メタデータ) (2020-03-13T22:24:14Z) - Combining Pretrained High-Resource Embeddings and Subword
Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。
本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-03-09T21:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。