論文の概要: UzbekTagger: The rule-based POS tagger for Uzbek language
- arxiv url: http://arxiv.org/abs/2301.12711v1
- Date: Mon, 30 Jan 2023 07:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:26:28.152103
- Title: UzbekTagger: The rule-based POS tagger for Uzbek language
- Title(参考訳): UzbekTagger: Uzbek言語用のルールベースのPOSタグ
- Authors: Maksud Sharipov, Elmurod Kuriyozov, Ollabergan Yuldashev, Ogabek
Sobirov
- Abstract要約: 本研究では,低リソースなウズベク語のための音声アノテートデータセットとタグツールを提案する。
データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。
提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するためのピボットとしても使用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research paper presents a part-of-speech (POS) annotated dataset and
tagger tool for the low-resource Uzbek language. The dataset includes 12 tags,
which were used to develop a rule-based POS-tagger tool. The corpus text used
in the annotation process was made sure to be balanced over 20 different fields
in order to ensure its representativeness. Uzbek being an agglutinative
language so the most of the words in an Uzbek sentence are formed by adding
suffixes. This nature of it makes the POS-tagging task difficult to find the
stems of words and the right part-of-speech they belong to. The methodology
proposed in this research is the stemming of the words with an affix/suffix
stripping approach including database of the stem forms of the words in the
Uzbek language. The tagger tool was tested on the annotated dataset and showed
high accuracy in identifying and tagging parts of speech in Uzbek text. This
newly presented dataset and tagger tool can be used for a variety of natural
language processing tasks such as language modeling, machine translation, and
text-to-speech synthesis. The presented dataset is the first of its kind to be
made publicly available for Uzbek, and the POS-tagger tool created can also be
used as a pivot to use as a base for other closely-related Turkic languages.
- Abstract(参考訳): 本稿では,低リソースなウズベク語に対するPOSアノテートデータセットとタグツールを提案する。
データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。
アノテーションプロセスで使用されるコーパステキストは、その代表性を確保するために、確実に20の異なるフィールドでバランスをとるようにされた。
ウズベク語は凝集言語であるため、ウズベク語の文中の単語の多くは接尾辞を加えることによって形成される。
この性質により、POSタグ付けタスクは、彼らが属する単語の幹や正しい音声を見つけるのが難しくなる。
本研究で提案する手法は,ウズベク語における単語の語幹形態のデータベースを含む接尾辞/接尾辞ストリッピングアプローチによる単語の語幹形成である。
taggerツールは注釈付きデータセット上でテストされ、ウズベク語のテキストにおける音声の識別とタグ付けにおいて高い精度を示した。
この新しく発表されたデータセットとタグツールは、言語モデリング、機械翻訳、テキストから音声への合成など、さまざまな自然言語処理タスクに使用できる。
提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するピボットとしても使用できる。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - UzbekStemmer: Development of a Rule-Based Stemming Algorithm for Uzbek
Language [0.0]
ウズベク語に対する規則に基づくスリーミングアルゴリズムを提案する。
この手法はウズベク語の単語をアフィクスストリッピングアプローチで綴じることを目的として提案されている。
XML形式の接尾辞の辞書が作成され、FSMに基づいてウズベク語を綴じるアプリケーションが開発されている。
論文 参考訳(メタデータ) (2022-10-28T09:29:22Z) - Creating a morphological and syntactic tagged corpus for the Uzbek
language [0.0]
ウズベク語の構文的および形態学的タグ付けコーパスを作成するための新しい音声部分(POS)と構文的タグセットを開発する。
開発したアノテーションツールとソフトウェアに基づいて,タグ付きコーパス生成の第1段階の経験結果を共有する。
論文 参考訳(メタデータ) (2022-10-27T07:44:12Z) - Accuracy of the Uzbek stop words detection: a case study on "School
corpus" [0.0]
本稿では,自動生成を目的とした停止語リストの品質評価手法を提案する。
この手法はウズベク語の停止語のリストを自動生成してテストした。
論文 参考訳(メタデータ) (2022-09-15T05:14:31Z) - Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-07-07T12:15:23Z) - Uzbek affix finite state machine for stemming [0.0]
提案手法は,接尾辞を用いて接尾辞を検索し,レキシコンを含まない形態素解析である。
本手法は,大量のテキストからの単語の形態解析を高速に行うとともに,語彙の保持にメモリを用いることは不要である。
論文 参考訳(メタデータ) (2022-05-20T10:46:53Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。