論文の概要: Development of a rule-based lemmatization algorithm through Finite State
Machine for Uzbek language
- arxiv url: http://arxiv.org/abs/2210.16006v1
- Date: Fri, 28 Oct 2022 09:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:07:15.526664
- Title: Development of a rule-based lemmatization algorithm through Finite State
Machine for Uzbek language
- Title(参考訳): ウズベク語用有限状態機械による規則に基づく補題化アルゴリズムの開発
- Authors: Maksud Sharipov, Ogabek Sobirov
- Abstract要約: 本稿では,ウズベク語における補題化アルゴリズムの構築について論じる。
本研究の主な目的は,有限状態機械を用いて単語の接尾辞を除去することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lemmatization is one of the core concepts in natural language processing,
thus creating a lemmatization tool is an important task. This paper discusses
the construction of a lemmatization algorithm for the Uzbek language. The main
purpose of the work is to remove affixes of words in the Uzbek language by
means of the finite state machine and to identify a lemma (a word that can be
found in the dictionary) of the word. The process of removing affixes uses a
database of affixes and part of speech knowledge. This lemmatization consists
of the general rules and a part of speech data of the Uzbek language, affixes,
classification of affixes, removing affixes on the basis of the finite state
machine for each class, as well as a definition of this word lemma.
- Abstract(参考訳): 補間は自然言語処理の核となる概念の1つであり、補間ツールの作成は重要なタスクである。
本稿では,ウズベキスタン語に対する補題化アルゴリズムの構築について論じる。
この研究の主な目的は、有限状態機械を用いてウズベク語の単語の接尾辞を除去し、単語の補題(辞書で見られる単語)を特定することである。
affixesを削除するプロセスは、affixesのデータベースと、音声知識の一部を使用する。
この補題化は、ウズベク語の一般的な規則と音声データの一部、接尾辞、接尾辞の分類、各クラスに対する有限状態機械に基づく接尾辞の除去、およびこの単語の補題の定義からなる。
関連論文リスト
- Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - UzbekStemmer: Development of a Rule-Based Stemming Algorithm for Uzbek
Language [0.0]
ウズベク語に対する規則に基づくスリーミングアルゴリズムを提案する。
この手法はウズベク語の単語をアフィクスストリッピングアプローチで綴じることを目的として提案されている。
XML形式の接尾辞の辞書が作成され、FSMに基づいてウズベク語を綴じるアプリケーションが開発されている。
論文 参考訳(メタデータ) (2022-10-28T09:29:22Z) - Accuracy of the Uzbek stop words detection: a case study on "School
corpus" [0.0]
本稿では,自動生成を目的とした停止語リストの品質評価手法を提案する。
この手法はウズベク語の停止語のリストを自動生成してテストした。
論文 参考訳(メタデータ) (2022-09-15T05:14:31Z) - Context based lemmatizer for Polish language [0.0]
レマティゼーション(英: Lemmatization)とは、単語の屈折形をまとめて一つの項目として分析する過程である。
計算言語学において、補題化(英:lemmatisation)とは、単語の補題を決定するアルゴリズムのプロセスである。
このモデルは、言語補題化プロセスにおける最良の結果を得る。
論文 参考訳(メタデータ) (2022-07-23T18:02:16Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z) - Uzbek affix finite state machine for stemming [0.0]
提案手法は,接尾辞を用いて接尾辞を検索し,レキシコンを含まない形態素解析である。
本手法は,大量のテキストからの単語の形態解析を高速に行うとともに,語彙の保持にメモリを用いることは不要である。
論文 参考訳(メタデータ) (2022-05-20T10:46:53Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - Generalized Optimal Linear Orders [9.010643838773477]
言語の逐次構造、特に文中の単語の順序は、人間の言語処理において中心的な役割を果たす。
言語の計算モデルの設計において、デファクトのアプローチは、原文と同じ順序で命令された単語を機械に提示することである。
この研究の本質は、これが望ましいという暗黙の仮定を疑問視し、自然言語処理における語順の考慮に理論的健全性を注入することである。
論文 参考訳(メタデータ) (2021-08-13T13:10:15Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。