論文の概要: UzbekStemmer: Development of a Rule-Based Stemming Algorithm for Uzbek
Language
- arxiv url: http://arxiv.org/abs/2210.16011v1
- Date: Fri, 28 Oct 2022 09:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:07:00.793321
- Title: UzbekStemmer: Development of a Rule-Based Stemming Algorithm for Uzbek
Language
- Title(参考訳): UzbekStemmer: Uzbek言語のためのルールベースステミングアルゴリズムの開発
- Authors: Maksud Sharipov, Ollabergan Yuldashov
- Abstract要約: ウズベク語に対する規則に基づくスリーミングアルゴリズムを提案する。
この手法はウズベク語の単語をアフィクスストリッピングアプローチで綴じることを目的として提案されている。
XML形式の接尾辞の辞書が作成され、FSMに基づいてウズベク語を綴じるアプリケーションが開発されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present a rule-based stemming algorithm for the Uzbek
language. Uzbek is an agglutinative language, so many words are formed by
adding suffixes, and the number of suffixes is also large. For this reason, it
is difficult to find a stem of words. The methodology is proposed for doing the
stemming of the Uzbek words with an affix stripping approach whereas not
including any database of the normal word forms of the Uzbek language. Word
affixes are classified into fifteen classes and designed as finite state
machines (FSMs) for each class according to morphological rules. We created
fifteen FSMs and linked them together to create the Basic FSM. A lexicon of
affixes in XML format was created and a stemming application for Uzbek words
has been developed based on the FSMs.
- Abstract(参考訳): 本稿では,ウズベク語における規則に基づくstemingアルゴリズムを提案する。
ウズベク語は凝集言語であるため、接尾辞を加えることで多くの単語が作られ、接尾辞の数も大きい。
そのため、単語の語幹を見つけることは困難である。
この手法は、ウズベク語の通常の語形に関するデータベースは含まないが、接尾辞ストリッピングアプローチでウズベク語を語源とする手法として提案されている。
単語の接尾辞は15のクラスに分類され、形態規則に従って各クラスごとに有限状態機械(fsms)として設計される。
15個のFSMを作成し、それらを結合してBasic FSMを作成しました。
XML形式の接尾辞の辞書が作成され、FSMに基づいてウズベク語を綴じるアプリケーションが開発されている。
関連論文リスト
- Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - UzbekTagger: The rule-based POS tagger for Uzbek language [0.0]
本研究では,低リソースなウズベク語のための音声アノテートデータセットとタグツールを提案する。
データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。
提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するためのピボットとしても使用できる。
論文 参考訳(メタデータ) (2023-01-30T07:40:45Z) - Development of a rule-based lemmatization algorithm through Finite State
Machine for Uzbek language [0.0]
本稿では,ウズベク語における補題化アルゴリズムの構築について論じる。
本研究の主な目的は,有限状態機械を用いて単語の接尾辞を除去することである。
論文 参考訳(メタデータ) (2022-10-28T09:21:06Z) - Creating a morphological and syntactic tagged corpus for the Uzbek
language [0.0]
ウズベク語の構文的および形態学的タグ付けコーパスを作成するための新しい音声部分(POS)と構文的タグセットを開発する。
開発したアノテーションツールとソフトウェアに基づいて,タグ付きコーパス生成の第1段階の経験結果を共有する。
論文 参考訳(メタデータ) (2022-10-27T07:44:12Z) - MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written
in Latin Script [0.05833117322405446]
我々は、YouTubeコメントのコーパスで生成された単語埋め込みモデルの強力さを利用する。
我々は、マノルムと呼ぶ正規化辞書を構築した。
論文 参考訳(メタデータ) (2022-06-18T10:17:46Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Uzbek affix finite state machine for stemming [0.0]
提案手法は,接尾辞を用いて接尾辞を検索し,レキシコンを含まない形態素解析である。
本手法は,大量のテキストからの単語の形態解析を高速に行うとともに,語彙の保持にメモリを用いることは不要である。
論文 参考訳(メタデータ) (2022-05-20T10:46:53Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。