論文の概要: Central Kurdish machine translation: First large scale parallel corpus
and experiments
- arxiv url: http://arxiv.org/abs/2106.09325v1
- Date: Thu, 17 Jun 2021 08:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:55:20.191666
- Title: Central Kurdish machine translation: First large scale parallel corpus
and experiments
- Title(参考訳): 中央クルド語機械翻訳:最初の大規模並列コーパスと実験
- Authors: Zhila Amini, Mohammad Mohammadamini (LIA), Hawre Hosseini, Mehran
Mansouri, Daban Jaff
- Abstract要約: 229,222対の手作業による翻訳を含む、中央クルド語英語のAwtaの最初の大規模並列コーパスを提示する。
ベストパフォーマンスシステムは,それぞれ,Ku$rightarrow$ENとEn$rightarrow$KuのBLEUスコアで22.72と16.81を達成する。
- 参考スコア(独自算出の注目度): 2.099922236065961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the computational processing of Kurdish has experienced a relative
increase, the machine translation of this language seems to be lacking a
considerable body of scientific work. This is in part due to the lack of
resources especially curated for this task. In this paper, we present the first
large scale parallel corpus of Central Kurdish-English, Awta, containing
229,222 pairs of manually aligned translations. Our corpus is collected from
different text genres and domains in an attempt to build more robust and
real-world applications of machine translation. We make a portion of this
corpus publicly available in order to foster research in this area. Further, we
build several neural machine translation models in order to benchmark the task
of Kurdish machine translation. Additionally, we perform extensive experimental
analysis of results in order to identify the major challenges that Central
Kurdish machine translation faces. These challenges include language-dependent
and-independent ones as categorized in this paper, the first group of which are
aware of Central Kurdish linguistic properties on different morphological,
syntactic and semantic levels. Our best performing systems achieve 22.72 and
16.81 in BLEU score for Ku$\rightarrow$EN and En$\rightarrow$Ku, respectively.
- Abstract(参考訳): クルド語の計算処理は相対的に増加したが、この言語の機械翻訳にはかなりの科学的研究が欠けているようである。
これは、特にこのタスクのためにキュレートされたリソースが欠如しているためだ。
本稿では,229,222組の手作業による翻訳文を含む,中央クルド語-英語 awta の大規模並列コーパスについて述べる。
私たちのコーパスは、機械翻訳のより堅牢で現実的なアプリケーションを構築するために、さまざまなテキストジャンルやドメインから収集されます。
この分野の研究を促進するため,我々はこのコーパスの一部を公開している。
さらに,クルド語機械翻訳のタスクをベンチマークするために,複数のニューラルマシン翻訳モデルを構築した。
さらに,中央クルド語機械翻訳が直面する主な課題を明らかにするために,実験結果の分析を行った。
これらの課題には、本論文で分類した言語依存と非依存の課題が含まれており、最初のグループは、形態的、構文的、意味的に異なる中央クルド語の特性を認識している。
BLEUスコアの22.72と16.81は、それぞれKu$\rightarrow$ENとEn$\rightarrow$Kuに対して達成している。
関連論文リスト
- Shifting from endangerment to rebirth in the Artificial Intelligence Age: An Ensemble Machine Learning Approach for Hawrami Text Classification [1.174020933567308]
ハフラミ語(Hawrami)はクルド語の方言で、絶滅危惧言語に分類される。
本稿では2つの母語話者による15のカテゴリにラベル付けされた6,854項目のデータセットを用いて,さまざまなテキスト分類モデルを提案する。
論文 参考訳(メタデータ) (2024-09-25T12:52:21Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Building the Language Resource for a Cebuano-Filipino Neural Machine
Translation System [0.0]
本稿では,CebuanoとFilipinoの平行コーパスを,聖書テキストとWebという2つの異なるドメインから構築する取り組みについて述べる。
聖書資料では、動詞のサブワード単位翻訳と名詞のコピー可能なアプローチが翻訳の不整合を正すために適用された。
Wikipediaでは、ソースとターゲット言語の両方から、一般的に発生するトピックセグメントが抽出された。
論文 参考訳(メタデータ) (2021-10-05T23:03:09Z) - Extended Parallel Corpus for Amharic-English Machine Translation [0.0]
リソース不足の言語であるamharicの機械翻訳に有用である。
コーパスを用いて,ニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。
論文 参考訳(メタデータ) (2021-04-08T06:51:08Z) - Towards Machine Translation for the Kurdish Language [0.0]
機械翻訳は、ある言語から別の言語にコンピュータを使ってテキストを翻訳するタスクである。
インド・ヨーロッパ語であるクルド語はこの領域でほとんど注目を集めていない。
本稿では,Sorani Kurdish-British翻訳のためのニューラルマシン翻訳モデルのトレーニングに適した少ない並列データについて述べる。
論文 参考訳(メタデータ) (2020-10-12T21:28:57Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。