論文の概要: CKMorph: A Comprehensive Morphological Analyzer for Central Kurdish
- arxiv url: http://arxiv.org/abs/2109.08615v1
- Date: Fri, 17 Sep 2021 15:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:40:48.120354
- Title: CKMorph: A Comprehensive Morphological Analyzer for Central Kurdish
- Title(参考訳): CKMorph:中央クルド人のための総合的形態解析装置
- Authors: Morteza Naserzade, Aso Mahmudi, Hadi Veisi, Hawre Hosseini, Mohammad
MohammadAmini
- Abstract要約: 形態解析器は、特に形態学的に豊かな言語に対する多くの自然言語処理アプリケーションにおいて重要な構成要素である。
本稿では,豊富な形態を持つ低リソース言語であるCentral Kurdish (CK) の総合的な形態解析手法を提案する。
CKMorphは精度テストセットの95.9%を正確に分析することができ、文脈に応じて1000のCKワードが形態学的に分析された。
- 参考スコア(独自算出の注目度): 4.226093500082746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A morphological analyzer, which is a significant component of many natural
language processing applications especially for morphologically rich languages,
divides an input word into all its composing morphemes and identifies their
morphological roles. In this paper, we introduce a comprehensive morphological
analyzer for Central Kurdish (CK), a low-resourced language with a rich
morphology. Building upon the limited existing literature, we first assembled
and systematically categorized a comprehensive collection of the morphological
and morphophonological rules of the language. Additionally, we collected and
manually labeled a generative lexicon containing nearly 10,000 verb, noun and
adjective stems, named entities, and other types of word stems. We used these
rule sets and resources to implement CKMorph Analyzer based on finite-state
transducers. In order to provide a benchmark for future research, we collected,
manually labeled, and publicly shared test sets for evaluating accuracy and
coverage of the analyzer. CKMorph was able to correctly analyze 95.9% of the
accuracy test set, containing 1,000 CK words morphologically analyzed according
to the context. Moreover, CKMorph gave at least one analysis for 95.5% of 4.22M
CK tokens of the coverage test set. The demonstration of the application and
resources including CK verb database and test sets are openly accessible at
https://github.com/CKMorph.
- Abstract(参考訳): 形態素解析器は、特に形態素言語に対する多くの自然言語処理アプリケーションにおいて重要な要素であり、入力語をその構成形態素に分割し、形態素の役割を識別する。
本稿では,豊富な形態を持つ低リソース言語であるCentral Kurdish(CK)の総合的な形態解析手法を提案する。
現存する限られた文献に基づいて、我々はまず言語の形態的および形態的規則の包括的収集と体系的分類を行った。
さらに,約10,000の動詞,名詞,形容詞,名前付き実体,その他の語幹を含む生成語彙を手作業で収集,ラベル付けした。
有限状態トランスデューサに基づくCKMorph Analyzerの実装には,これらのルールセットとリソースを使用した。
将来の研究のためのベンチマークを提供するため,分析器の精度とカバレッジを評価するために,手動でラベル付け,公開テストセットを収集した。
CKMorphは精度テストセットの95.9%を正確に分析することができ、文脈に応じて1000のCKワードが形態学的に分析された。
さらに、CKMorphはカバーテストセットの4.22M CKトークンの95.5%の少なくとも1つの分析を行った。
CK動詞データベースやテストセットを含むアプリケーションとリソースのデモはhttps://github.com/CKMorph.comで公開公開されている。
関連論文リスト
- Urdu Dependency Parsing and Treebank Development: A Syntactic and Morphological Perspective [0.0]
依存関係解析を用いて、ウルドゥー語でニュース記事を分析する。
最良ラベル付き精度(LA)は70%,未ラベル付きアタッチメントスコア(UAS)は84%であった。
論文 参考訳(メタデータ) (2024-06-13T19:30:32Z) - UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings [0.0]
接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。
本稿では,ユーズベク語の形態解析のモデル化について述べる。
提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。
論文 参考訳(メタデータ) (2024-05-23T05:06:55Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Evaluation of Morphological Embeddings for the Russian Language [0.0]
SkipgramObjectiveで訓練されたモルフォロジーベースの埋め込みは、既存の埋め込みモデル-FastTextを上回っません。
より複雑な、しかしモルフォロジーを知らないモデル、BERTは、単語のモルフォロジーの理解を必要とするタスクで大幅に大きなパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2021-03-11T11:59:11Z) - Morphology Matters: A Multilingual Language Modeling Analysis [8.791030561752384]
先行研究では、言語のモデル化が難しくなるかどうかについては意見が一致していない。
我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。
いくつかの形態学的測定は、LSTMモデルがBPEセグメントデータで訓練されると、より高い推定値と有意に関連します。
論文 参考訳(メタデータ) (2020-12-11T11:55:55Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。