論文の概要: Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus
- arxiv url: http://arxiv.org/abs/2010.01554v1
- Date: Sun, 4 Oct 2020 11:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:40:48.809140
- Title: Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus
- Title(参考訳): クルド語並列コーパス構築のための多言語ニュースサイト活用
- Authors: Sina Ahmadi, Hossein Hassani, Daban Q. Jaff
- Abstract要約: クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine translation has been a major motivation of development in natural
language processing. Despite the burgeoning achievements in creating more
efficient machine translation systems thanks to deep learning methods, parallel
corpora have remained indispensable for progress in the field. In an attempt to
create parallel corpora for the Kurdish language, in this paper, we describe
our approach in retrieving potentially-alignable news articles from
multi-language websites and manually align them across dialects and languages
based on lexical similarity and transliteration of scripts. We present a corpus
containing 12,327 translation pairs in the two major dialects of Kurdish,
Sorani and Kurmanji. We also provide 1,797 and 650 translation pairs in
English-Kurmanji and English-Sorani. The corpus is publicly available under the
CC BY-NC-SA 4.0 license.
- Abstract(参考訳): 機械翻訳は自然言語処理の発展の大きな動機となっている。
深層学習の手法により、より効率的な機械翻訳システムを構築するという先進的な成果にもかかわらず、並列コーパスはこの分野の進歩には不可欠である。
本稿では、クルド語の並列コーパスを作成するために、多言語Webサイトから潜在的に認識可能なニュース記事を取得し、語彙的類似性やスクリプトの文字化に基づく方言や言語間で手動で調整するアプローチについて述べる。
クルド語、ソラニ語、クルマンジ語の2方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
コーパスはCC BY-NC-SA 4.0ライセンスで公開されている。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Language and Speech Technology for Central Kurdish Varieties [27.751434601712]
3000万人以上の話者が話すインド・ヨーロッパ語であるクルド語は、方言の連続語であると考えられている。
クルド語のための言語と音声技術に対処する以前の研究は、マクロ言語としてモノリシックな方法でそれを扱う。
本稿では,中央クルド語多種多様な言語・音声技術のための資源開発への一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-04T12:27:32Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文 参考訳(メタデータ) (2023-06-27T11:06:44Z) - Central Kurdish machine translation: First large scale parallel corpus
and experiments [2.099922236065961]
229,222対の手作業による翻訳を含む、中央クルド語英語のAwtaの最初の大規模並列コーパスを提示する。
ベストパフォーマンスシステムは,それぞれ,Ku$rightarrow$ENとEn$rightarrow$KuのBLEUスコアで22.72と16.81を達成する。
論文 参考訳(メタデータ) (2021-06-17T08:41:53Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Towards Machine Translation for the Kurdish Language [0.0]
機械翻訳は、ある言語から別の言語にコンピュータを使ってテキストを翻訳するタスクである。
インド・ヨーロッパ語であるクルド語はこの領域でほとんど注目を集めていない。
本稿では,Sorani Kurdish-British翻訳のためのニューラルマシン翻訳モデルのトレーニングに適した少ない並列データについて述べる。
論文 参考訳(メタデータ) (2020-10-12T21:28:57Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。