論文の概要: Crowdsourcing Parallel Corpus for English-Oromo Neural Machine
Translation using Community Engagement Platform
- arxiv url: http://arxiv.org/abs/2102.07539v1
- Date: Mon, 15 Feb 2021 13:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:48:41.250407
- Title: Crowdsourcing Parallel Corpus for English-Oromo Neural Machine
Translation using Community Engagement Platform
- Title(参考訳): コミュニティエンゲージメントプラットフォームを用いた英語-オロモニューラルマシン翻訳のためのクラウドソーシング並列コーパス
- Authors: Sisay Chala, Bekele Debisa, Amante Diriba, Silas Getachew, Chala Getu,
Solomon Shiferaw
- Abstract要約: 本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。
40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Even though Afaan Oromo is the most widely spoken language in the Cushitic
family by more than fifty million people in the Horn and East Africa, it is
surprisingly resource-scarce from a technological point of view. The increasing
amount of various useful documents written in English language brings to
investigate the machine that can translate those documents and make it easily
accessible for local language. The paper deals with implementing a translation
of English to Afaan Oromo and vice versa using Neural Machine Translation. But
the implementation is not very well explored due to the limited amount and
diversity of the corpus. However, using a bilingual corpus of just over 40k
sentence pairs we have collected, this study showed a promising result. About a
quarter of this corpus is collected via Community Engagement Platform (CEP)
that was implemented to enrich the parallel corpus through crowdsourcing
translations.
- Abstract(参考訳): アファアン・オロモ(Afaan Oromo)は、ホーンと東アフリカで5千万人以上の人々がカシマ語族で最も広く話されている言語ですが、技術的観点からは驚くほど資源不足です。
英語で書かれた様々な有用な文書が増加すると、これらの文書を翻訳し、地元の言語で簡単にアクセスできるようにする機械が調査される。
本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。
しかし、コーパスの量と多様性が限られているため、実装は十分に調査されていない。
しかし,40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。
このコーパスの約4分の1は、クラウドソーシング翻訳を通じて並列コーパスを強化するために実装されたコミュニティエンゲージメントプラットフォーム(CEP)を介して収集されます。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - PHINC: A Parallel Hinglish Social Media Code-Mixed Corpus for Machine
Translation [1.2301855531996841]
本稿では,13,738のコード混成英語・ヒンディー語文の並列コーパスとその英訳について述べる。
文の翻訳はアノテータが手作業で行う。
我々は、コードミキシング機械翻訳における将来の研究機会を促進するために、並列コーパスをリリースしています。
論文 参考訳(メタデータ) (2020-04-20T17:04:22Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。