論文の概要: Hunspell for Sorani Kurdish Spell Checking and Morphological Analysis
- arxiv url: http://arxiv.org/abs/2109.06374v1
- Date: Tue, 14 Sep 2021 00:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:35:31.967963
- Title: Hunspell for Sorani Kurdish Spell Checking and Morphological Analysis
- Title(参考訳): Sorani Kurdish Spell Checking に対する Hunspell 法と形態学的検討
- Authors: Sina Ahmadi
- Abstract要約: 本稿では,形態素タグを付した辞書の注釈,およびSorani Kurdishの形態規則を抽出して,Hunspellを用いた形態素解析器,ステマー,スペルチェックシステムを構築した。
この実装は、研究者によるさらなる開発に使用することができ、また、公開ライセンスの下でテキストエディタに統合することもできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spell checking and morphological analysis are two fundamental tasks in text
and natural language processing and are addressed in the early stages of the
development of language technology. Despite the previous efforts, there is no
progress in open-source to create such tools for Sorani Kurdish, also known as
Central Kurdish, as a less-resourced language. In this paper, we present our
efforts in annotating a lexicon with morphosyntactic tags and also, extracting
morphological rules of Sorani Kurdish to build a morphological analyzer, a
stemmer and a spell-checking system using Hunspell. This implementation can be
used for further developments in the field by researchers and also, be
integrated into text editors under a publicly available license.
- Abstract(参考訳): スペルチェックと形態解析は、テキストと自然言語処理の2つの基本的なタスクであり、言語技術の発展の初期段階で対処されている。
以前の取り組みにも拘わらず、オープンソースでSorani Kurdish(Central Kurdishとしても知られる)のようなツールを、よりリソースの少ない言語として開発する進展はない。
本稿では,形態素タグを付した辞書の注釈付けと,Sorani Kurdish の形態規則を抽出し,ハンスペルを用いた形態素解析器,ステマー,スペルチェックシステムを構築した。
この実装は、研究者によるさらなる開発に使用することができ、また、公開ライセンスの下でテキストエディタに統合することもできる。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Language and Speech Technology for Central Kurdish Varieties [27.751434601712]
3000万人以上の話者が話すインド・ヨーロッパ語であるクルド語は、方言の連続語であると考えられている。
クルド語のための言語と音声技術に対処する以前の研究は、マクロ言語としてモノリシックな方法でそれを扱う。
本稿では,中央クルド語多種多様な言語・音声技術のための資源開発への一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-04T12:27:32Z) - Approaches to Corpus Creation for Low-Resource Language Technology: the
Case of Southern Kurdish and Laki [29.27024733066261]
このような表現不足言語,特に書込みや標準化における課題について述べる。
また、クルド語やザザ・ゴラーニ語の他の変種に照らして、言語識別の課題についても検討する。
論文 参考訳(メタデータ) (2023-04-03T19:36:32Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Urdu Morphology, Orthography and Lexicon Extraction [0.0]
本稿では,Urdu言語の実装をソフトウェアAPIとして記述する。
我々は、正書法、形態学、辞書の抽出を扱う。
論文 参考訳(メタデータ) (2022-04-06T20:14:01Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Towards Machine Translation for the Kurdish Language [0.0]
機械翻訳は、ある言語から別の言語にコンピュータを使ってテキストを翻訳するタスクである。
インド・ヨーロッパ語であるクルド語はこの領域でほとんど注目を集めていない。
本稿では,Sorani Kurdish-British翻訳のためのニューラルマシン翻訳モデルのトレーニングに適した少ない並列データについて述べる。
論文 参考訳(メタデータ) (2020-10-12T21:28:57Z) - Towards Finite-State Morphology of Kurdish [0.76146285961466]
クルド語(ソルニ方言)の形態は、計算学的観点から記述される。
単語の生成と解析のために有限状態変換器に変換される形態素規則を抽出する。
論文 参考訳(メタデータ) (2020-05-21T13:55:07Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。