論文の概要: The eBible Corpus: Data and Model Benchmarks for Bible Translation for
Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2304.09919v1
- Date: Wed, 19 Apr 2023 18:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 15:15:00.866965
- Title: The eBible Corpus: Data and Model Benchmarks for Bible Translation for
Low-Resource Languages
- Title(参考訳): eBible Corpus:低リソース言語のためのBible Translationのためのデータとモデルベンチマーク
- Authors: Vesa Akerman and David Baines and Damien Daspit and Ulf Hermjakob and
Taeho Jang and Colin Leong and Michael Martin and Joel Mathew and Jonathan
Robie and Marcus Schwarting
- Abstract要約: 聖書翻訳(BT)の作業は現在、3,000以上の非常に低リソース言語で進行中である。
聖書の一部の1009の翻訳を含むデータセットを75の言語ファミリーで853の異なる言語で作成する。
BTデータセットのベンチマークに加えて、NLLB(No Language Left Behind)ニューラルマシン翻訳(NMT)モデルに基づいて構築されたモデルパフォーマンスベンチマークを導入する。
- 参考スコア(独自算出の注目度): 1.4681482563848867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently and accurately translating a corpus into a low-resource language
remains a challenge, regardless of the strategies employed, whether manual,
automated, or a combination of the two. Many Christian organizations are
dedicated to the task of translating the Holy Bible into languages that lack a
modern translation. Bible translation (BT) work is currently underway for over
3000 extremely low resource languages. We introduce the eBible corpus: a
dataset containing 1009 translations of portions of the Bible with data in 833
different languages across 75 language families. In addition to a BT
benchmarking dataset, we introduce model performance benchmarks built on the No
Language Left Behind (NLLB) neural machine translation (NMT) models. Finally,
we describe several problems specific to the domain of BT and consider how the
established data and model benchmarks might be used for future translation
efforts. For a BT task trained with NLLB, Austronesian and Trans-New Guinea
language families achieve 35.1 and 31.6 BLEU scores respectively, which spurs
future innovations for NMT for low-resource languages in Papua New Guinea.
- Abstract(参考訳): コーパスを低リソース言語に効率的かつ正確に翻訳することは、手動、自動化、あるいは2つの組み合わせに関わらず、依然として困難である。
多くのキリスト教の組織は、聖書を近代的な翻訳を欠く言語に翻訳することに専念している。
聖書翻訳(bt)は現在3000以上の極低資源言語で研究が進められている。
聖書の一部の1009の翻訳と75の言語ファミリーにわたる853の言語でのデータを含むデータセットであるebible corpusを紹介する。
BTベンチマークデータセットに加えて、NLLB(No Language Left Behind)ニューラルマシン翻訳(NMT)モデルに基づいて構築されたモデルパフォーマンスベンチマークを導入する。
最後に、BTのドメインに特有のいくつかの問題について述べ、確立されたデータとモデルベンチマークが将来の翻訳にどのように使われるかを検討する。
NLLBで訓練されたBTタスクでは、オーストロネシア語族とトランスニューギニア語族はそれぞれ35.1と31.6のBLEUスコアを獲得し、パプアニューギニアの低リソース言語のためのNMTのイノベーションを加速させる。
関連論文リスト
- NusaMT-7B: Machine Translation for Low-Resource Indonesian Languages with Large Language Models [2.186901738997927]
本稿では,低リソースインドネシア語用機械翻訳モデルであるNusaMT-7Bを紹介する。
提案手法は, 単言語データ, Supervised Fine-Tuning (SFT) , 自己学習, LLMベースのデータクリーナーを併用し, 並列文のノイズを低減する。
この結果から,LLMの微調整により,低リソース言語への翻訳品質が向上し,言語保存や異文化間コミュニケーションに寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-10T11:33:25Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。