論文の概要: Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New
Datasets for Bengali-English Machine Translation
- arxiv url: http://arxiv.org/abs/2009.09359v2
- Date: Wed, 7 Oct 2020 05:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:53:01.713951
- Title: Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New
Datasets for Bengali-English Machine Translation
- Title(参考訳): ローリソースではない - aligner ensembling, batch filter, and new datasets for bengali- english machine translation
- Authors: Tahmid Hasan, Abhik Bhattacharjee, Kazi Samin, Masum Hasan, Madhusudan
Basak, M. Sohel Rahman, Rifat Shahriyar
- Abstract要約: ベンガル語は世界で7番目に広く話されている言語であるにもかかわらず、資源不足のため機械翻訳文学にはあまり注目されていない。
我々はBengali用にカスタマイズされた文セグメンタを構築し、低リソース環境における並列コーパス生成のための2つの新しい手法を提案する。
セグメンタと2つの手法を組み合わせることで、275万文対からなる高品質なベンガル英語並列コーパスをコンパイルする。
- 参考スコア(独自算出の注目度): 6.2418269277908065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being the seventh most widely spoken language in the world, Bengali
has received much less attention in machine translation literature due to being
low in resources. Most publicly available parallel corpora for Bengali are not
large enough; and have rather poor quality, mostly because of incorrect
sentence alignments resulting from erroneous sentence segmentation, and also
because of a high volume of noise present in them. In this work, we build a
customized sentence segmenter for Bengali and propose two novel methods for
parallel corpus creation on low-resource setups: aligner ensembling and batch
filtering. With the segmenter and the two methods combined, we compile a
high-quality Bengali-English parallel corpus comprising of 2.75 million
sentence pairs, more than 2 million of which were not available before.
Training on neural models, we achieve an improvement of more than 9 BLEU score
over previous approaches to Bengali-English machine translation. We also
evaluate on a new test set of 1000 pairs made with extensive quality control.
We release the segmenter, parallel corpus, and the evaluation set, thus
elevating Bengali from its low-resource status. To the best of our knowledge,
this is the first ever large scale study on Bengali-English machine
translation. We believe our study will pave the way for future research on
Bengali-English machine translation as well as other low-resource languages.
Our data and code are available at https://github.com/csebuetnlp/banglanmt.
- Abstract(参考訳): ベンガル語は世界で7番目に広く話されている言語であるにもかかわらず、資源不足のため機械翻訳文学にはあまり注目されていない。
ベンガル語で利用可能なほとんどのパラレルコーパスは十分ではない; かなり質が悪く、主に誤文分割による不正確な文のアライメントが原因であり、またその中に大量のノイズが存在するためである。
そこで本研究では,Bengali 用カスタマイズ文セグメンタを構築し,低リソース環境における並列コーパス生成のための2つの新しい手法を提案する。
セグナーと2つの手法を組み合わせることで,2億7500万文ペアからなる高品質なベンガル英語並列コーパスをコンパイルした。
ニューラルモデルを用いた学習により、ベンガル英語機械翻訳に対する従来のアプローチよりも9以上のBLEUスコアが向上した。
また,広範囲な品質管理を施した1000組の新しいテストセットについても評価した。
我々は、セグメンタ、並列コーパス、評価セットを公開し、Bengaliを低リソース状態から高めます。
私たちの知る限りでは、これはベンガル語-英語機械翻訳に関する最初の大規模研究である。
私たちの研究は、ベンガル語-英語機械翻訳や他の低リソース言語に関する今後の研究への道を開くと確信しています。
私たちのデータとコードはhttps://github.com/csebuetnlp/banglanmt.comから入手できます。
関連論文リスト
- Too Late to Train, Too Early To Use? A Study on Necessity and Viability of Low-Resource Bengali LLMs [2.309018557701645]
低リソース言語専用の英語指向の大規模言語モデルの必要性について検討する。
オープンウェイトおよびクローズドソースLLMの性能を、微調整エンコーダデコーダモデルと比較する。
LLMは一般的に推論タスクに優れるが,Bengaliスクリプト生成を必要とするタスクのパフォーマンスは不整合である。
論文 参考訳(メタデータ) (2024-06-29T11:50:16Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - Ensembling of Distilled Models from Multi-task Teachers for Constrained
Resource Language Pairs [0.0]
我々は、ベンガル語からヒンディー語、英語からハウサ語、Xhosaからズールー語までの3つの比較的低いリソース言語対に焦点を当てている。
並列データと単言語データの両方を用いたマルチタスク目的を用いた多言語モデルを訓練する。
BLEUの英語とハウサ語との相対的な増加率は約70%、ベンガル語とヒンディー語、チョーサ語とズールー語の両方の相対的な改善率は約25%である。
論文 参考訳(メタデータ) (2021-11-26T00:54:37Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Simple or Complex? Learning to Predict Readability of Bengali Texts [6.860272388539321]
ベンガル語で書かれたテキストを解析できる可読性解析ツールを提案する。
2億3000万人のネイティブスピーカーを持つ世界で7番目に話されている言語であるにもかかわらず、ベンガル語は自然言語処理の基本的なリソースが不足している。
論文 参考訳(メタデータ) (2020-12-09T01:41:35Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。