論文の概要: Part of Speech Tagging (POST) of a Low-resource Language using another
Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged
Persian (Farsi) Corpus)
- arxiv url: http://arxiv.org/abs/2201.12793v1
- Date: Sun, 30 Jan 2022 11:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 16:27:37.817613
- Title: Part of Speech Tagging (POST) of a Low-resource Language using another
Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged
Persian (Farsi) Corpus)
- Title(参考訳): 他言語を用いた低リソース言語の音声タグ付け(POST)の一部(タグ付きペルシャ語コーパスを用いたクルド語(ソラニ語)用POSタグ辞書の開発)
- Authors: Hossein Hassani
- Abstract要約: 音声タグ付け(POST)の一部はタグ付きコーパスの開発に不可欠である。
クルド語は現在、適切なサイズのタグ付きコーパスが公開されていない。
我々は、ペルシャ語(Farsi)のタグ付きコーパス(Bijankhan corpus)をクルド語に近い言語として使用し、POSタグ付きレキシコンを開発する。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tagged corpora play a crucial role in a wide range of Natural Language
Processing. The Part of Speech Tagging (POST) is essential in developing tagged
corpora. It is time-and-effort-consuming and costly, and therefore, it could be
more affordable if it is automated. The Kurdish language currently lacks
publicly available tagged corpora of proper sizes. Tagging the publicly
available Kurdish corpora can leverage the capability of those resources to a
higher level than what raw or segmented corpora can provide. Developing
POS-tagged lexicons can assist the mentioned task. We use a tagged corpus
(Bijankhan corpus) in Persian (Farsi) as a close language to Kurdish to develop
a POS-tagged lexicon. This paper presents the approach of leveraging the
resource of a close language to Kurdish to enrich its resources. A partial
dataset of the results is publicly available for non-commercial use under CC
BY-NC-SA 4.0 license at https://kurdishblark.github.io/. We plan to make the
whole tagged corpus available after further investigation on the outcome. The
dataset can help in developing POS-tagged lexicons for other Kurdish dialects
and automated Kurdish corpora tagging.
- Abstract(参考訳): タグ付きコーパスは、幅広い自然言語処理において重要な役割を果たす。
音声タグ付け(POST)は,タグ付けコーパスの開発に不可欠である。
時間と費用がかかるため、自動化すればより手頃な価格になる可能性がある。
クルド語は現在、適切なサイズのタグ付きコーパスが公開されていない。
公開されているクルド人コーポラをタグ付けすることで、これらの資源の能力は生または分節コーポラが提供するものよりも高いレベルに活用できる。
POSタグ付きレキシコンの開発は、前述のタスクを支援することができる。
ペルシャ語(farsi)のタグ付きコーパス(bijankhan corpus)をクルド語に近い言語として使用し,posタグ付きレキシコンを開発した。
本稿では,近い言語の資源をクルド語に活用して資源を豊かにする手法を提案する。
結果の一部のデータセットは、https://kurdishblark.github.io/のcc by-nc-sa 4.0ライセンスの下で非商用利用で公開されている。
結果のさらなる調査の後、タグ付きコーパス全体を利用可能にする予定だ。
このデータセットは、他のクルド語方言のためのposタグ付き辞書を開発するのに役立つ。
関連論文リスト
- GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。
我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文 参考訳(メタデータ) (2024-10-31T11:14:12Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Language and Speech Technology for Central Kurdish Varieties [27.751434601712]
3000万人以上の話者が話すインド・ヨーロッパ語であるクルド語は、方言の連続語であると考えられている。
クルド語のための言語と音声技術に対処する以前の研究は、マクロ言語としてモノリシックな方法でそれを扱う。
本稿では,中央クルド語多種多様な言語・音声技術のための資源開発への一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-04T12:27:32Z) - Colloquial Persian POS (CPPOS) Corpus: A Novel Corpus for Colloquial
Persian Part of Speech Tagging [0.9843385481559193]
本稿では,新しいコーパス "Colloquial Persian POS" (CPPOS) について紹介する。
コーパスには、Telegram、Twitter、Instagramで政治的、社会的、商業などの様々なドメインから収集された公式テキストと非公式テキストが含まれている。
論文 参考訳(メタデータ) (2023-10-01T05:06:33Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to
Kurdish-BLARK Named Entities [0.76146285961466]
クルド語(ソラニ)におけるNEのいくつかのカテゴリをカバーするデータセットを提示する。
このデータセットは、クルド語BLARK(Basic Language Resource Kit)で以前に開発されたデータセットに対する重要な修正である。
論文 参考訳(メタデータ) (2023-01-12T12:13:44Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Using Punkt for Sentence Segmentation in non-Latin Scripts: Experiments
on Kurdish (Sorani) Texts [0.76146285961466]
Punktは教師なしの機械学習手法である。
我々はパンクトを使って、ペルシア・アラビア文字で書かれたソラニ方言のクルド語コーパスを区分した。
実験では、F1スコア91.10%、エラーレート16.32%を達成しました。
論文 参考訳(メタデータ) (2020-04-09T06:44:08Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。