Fugu-MT 論文翻訳(概要): Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus

論文の概要: Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus

arxiv url: http://arxiv.org/abs/2010.01554v1
Date: Sun, 4 Oct 2020 11:52:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 03:40:48.809140
Title: Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus
Title（参考訳）: クルド語並列コーパス構築のための多言語ニュースサイト活用
Authors: Sina Ahmadi, Hossein Hassani, Daban Q. Jaff
Abstract要約: クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
参考スコア（独自算出の注目度）: 0.6445605125467573
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Machine translation has been a major motivation of development in natural language processing. Despite the burgeoning achievements in creating more efficient machine translation systems thanks to deep learning methods, parallel corpora have remained indispensable for progress in the field. In an attempt to create parallel corpora for the Kurdish language, in this paper, we describe our approach in retrieving potentially-alignable news articles from multi-language websites and manually align them across dialects and languages based on lexical similarity and transliteration of scripts. We present a corpus containing 12,327 translation pairs in the two major dialects of Kurdish, Sorani and Kurmanji. We also provide 1,797 and 650 translation pairs in English-Kurmanji and English-Sorani. The corpus is publicly available under the CC BY-NC-SA 4.0 license.
Abstract（参考訳）: 機械翻訳は自然言語処理の発展の大きな動機となっている。深層学習の手法により、より効率的な機械翻訳システムを構築するという先進的な成果にもかかわらず、並列コーパスはこの分野の進歩には不可欠である。本稿では、クルド語の並列コーパスを作成するために、多言語Webサイトから潜在的に認識可能なニュース記事を取得し、語彙的類似性やスクリプトの文字化に基づく方言や言語間で手動で調整するアプローチについて述べる。クルド語、ソラニ語、クルマンジ語の2方言に12,327の翻訳ペアを含むコーパスを提示する。また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。コーパスはCC BY-NC-SA 4.0ライセンスで公開されている。

関連論文リスト

Simultaneous Speech-to-Speech Translation Without Aligned Data [52.467808474293605]
同時音声翻訳では、ソース音声を対象言語にリアルタイムで翻訳する必要がある。単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。 Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-02-11T17:41:01Z)
Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文参考訳（メタデータ） (2024-08-05T07:58:58Z)
Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文参考訳（メタデータ） (2024-07-06T21:23:20Z)
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文参考訳（メタデータ） (2024-06-27T22:38:04Z)
Language and Speech Technology for Central Kurdish Varieties [27.751434601712]
3000万人以上の話者が話すインド・ヨーロッパ語であるクルド語は、方言の連続語であると考えられている。クルド語のための言語と音声技術に対処する以前の研究は、マクロ言語としてモノリシックな方法でそれを扱う。本稿では,中央クルド語多種多様な言語・音声技術のための資源開発への一歩を踏み出した。
論文参考訳（メタデータ） (2024-03-04T12:27:32Z)
Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文参考訳（メタデータ） (2023-11-07T03:50:25Z)
SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文参考訳（メタデータ） (2023-06-27T11:06:44Z)
Central Kurdish machine translation: First large scale parallel corpus and experiments [2.099922236065961]
229,222対の手作業による翻訳を含む、中央クルド語英語のAwtaの最初の大規模並列コーパスを提示する。ベストパフォーマンスシステムは,それぞれ,Ku$rightarrow$ENとEn$rightarrow$KuのBLEUスコアで22.72と16.81を達成する。
論文参考訳（メタデータ） (2021-06-17T08:41:53Z)
Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文参考訳（メタデータ） (2021-05-09T14:49:07Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Towards Machine Translation for the Kurdish Language [0.0]
機械翻訳は、ある言語から別の言語にコンピュータを使ってテキストを翻訳するタスクである。インド・ヨーロッパ語であるクルド語はこの領域でほとんど注目を集めていない。本稿では,Sorani Kurdish-British翻訳のためのニューラルマシン翻訳モデルのトレーニングに適した少ない並列データについて述べる。
論文参考訳（メタデータ） (2020-10-12T21:28:57Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。