論文の概要: Using Punkt for Sentence Segmentation in non-Latin Scripts: Experiments
on Kurdish (Sorani) Texts
- arxiv url: http://arxiv.org/abs/2004.14134v2
- Date: Thu, 30 Apr 2020 08:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:54:06.866125
- Title: Using Punkt for Sentence Segmentation in non-Latin Scripts: Experiments
on Kurdish (Sorani) Texts
- Title(参考訳): 非ラテン語スクリプトにおける文セグメンテーションにパンクトを用いる:クルド語(ソルニ語)テキストの実験
- Authors: Roshna Omer Abdulrahman, Hossein Hassani
- Abstract要約: Punktは教師なしの機械学習手法である。
我々はパンクトを使って、ペルシア・アラビア文字で書かれたソラニ方言のクルド語コーパスを区分した。
実験では、F1スコア91.10%、エラーレート16.32%を達成しました。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Segmentation is a fundamental step for most Natural Language Processing
tasks. The Kurdish language is a multi-dialect, under-resourced language which
is written in different scripts. The lack of various segmented corpora is one
of the major bottlenecks in Kurdish language processing. We used Punkt, an
unsupervised machine learning method, to segment a Kurdish corpus of Sorani
dialect, written in Persian-Arabic script. According to the literature, studies
on using Punkt on non-Latin data are scanty. In our experiment, we achieved an
F1 score of 91.10% and had an Error Rate of 16.32%. The high Error Rate is
mainly due to the situation of abbreviations in Kurdish and partly because of
ordinal numerals. The data is publicly available at
https://github.com/KurdishBLARK/ KTC-Segmented for non-commercial use under the
CC BY-NC-SA 4.0 licence.
- Abstract(参考訳): セグメンテーションは、ほとんどの自然言語処理タスクの基本的なステップである。
クルド語は、異なるスクリプトで書かれた多言語、アンダーリソース言語である。
様々なセグメンテッドコーパスの欠如は、クルド語処理における主要なボトルネックの1つである。
我々は、教師なしの機械学習手法であるpunktを用いて、ペルシア・アラビア文字で書かれたソラニ方言のクルド語コーパスを分割した。
文献によると、非ラテン語データにPunktを使用する研究は控えめである。
実験では、F1スコア91.10%、エラーレート16.32%を達成しました。
高いエラー率は主にクルド語における省略の状況と、一部は順序数によるものである。
データは https://github.com/KurdishBLARK/KTC-Segmented for non-mercial use under CC BY-NC-SA 4.0 ライセンスで公開されている。
関連論文リスト
- Shifting from endangerment to rebirth in the Artificial Intelligence Age: An Ensemble Machine Learning Approach for Hawrami Text Classification [1.174020933567308]
ハフラミ語(Hawrami)はクルド語の方言で、絶滅危惧言語に分類される。
本稿では2つの母語話者による15のカテゴリにラベル付けされた6,854項目のデータセットを用いて,さまざまなテキスト分類モデルを提案する。
論文 参考訳(メタデータ) (2024-09-25T12:52:21Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - The First Parallel Corpora for Kurdish Sign Language [0.76146285961466]
クルド人手話(KuSL)は、クルド人手話の自然言語である。
本稿では,ソラニ方言におけるクルド語のアバターに基づく自動翻訳をクルド語手話に導入する。
両言語評価法 (BLEU) を用いて, 結果の理解性を検証し, 評価を行った。
論文 参考訳(メタデータ) (2023-05-11T12:10:20Z) - A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to
Kurdish-BLARK Named Entities [0.76146285961466]
クルド語(ソラニ)におけるNEのいくつかのカテゴリをカバーするデータセットを提示する。
このデータセットは、クルド語BLARK(Basic Language Resource Kit)で以前に開発されたデータセットに対する重要な修正である。
論文 参考訳(メタデータ) (2023-01-12T12:13:44Z) - Part of Speech Tagging (POST) of a Low-resource Language using another
Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged
Persian (Farsi) Corpus) [0.76146285961466]
音声タグ付け(POST)の一部はタグ付きコーパスの開発に不可欠である。
クルド語は現在、適切なサイズのタグ付きコーパスが公開されていない。
我々は、ペルシャ語(Farsi)のタグ付きコーパス(Bijankhan corpus)をクルド語に近い言語として使用し、POSタグ付きレキシコンを開発する。
論文 参考訳(メタデータ) (2022-01-30T11:49:43Z) - Central Kurdish machine translation: First large scale parallel corpus
and experiments [2.099922236065961]
229,222対の手作業による翻訳を含む、中央クルド語英語のAwtaの最初の大規模並列コーパスを提示する。
ベストパフォーマンスシステムは,それぞれ,Ku$rightarrow$ENとEn$rightarrow$KuのBLEUスコアで22.72と16.81を達成する。
論文 参考訳(メタデータ) (2021-06-17T08:41:53Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。