論文の概要: Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages
- arxiv url: http://arxiv.org/abs/2108.07127v1
- Date: Mon, 16 Aug 2021 14:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:18:28.337361
- Title: Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages
- Title(参考訳): 制約付きテキストの低資源言語への超並列翻訳のためのアクティブラーニング
- Authors: Zhong Zhou and Alex Waibel
- Abstract要約: 我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 26.822210580244885
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We translate a closed text that is known in advance and available in many
languages into a new and severely low resource language. Most human translation
efforts adopt a portion-based approach to translate consecutive pages/chapters
in order, which may not suit machine translation. We compare the portion-based
approach that optimizes coherence of the text locally with the random sampling
approach that increases coverage of the text globally. Our results show that
the random sampling approach performs better. When training on a seed corpus of
~1,000 lines from the Bible and testing on the rest of the Bible (~30,000
lines), random sampling gives a performance gain of +11.0 BLEU using English as
a simulated low resource language, and +4.9 BLEU using Eastern Pokomchi, a
Mayan language. Furthermore, we compare three ways of updating machine
translation models with increasing amount of human post-edited data through
iterations. We find that adding newly post-edited data to training after
vocabulary update without self-supervision performs the best. We propose an
algorithm for human and machine to work together seamlessly to translate a
closed text into a severely low resource language.
- Abstract(参考訳): 我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
ほとんどの人間の翻訳作業は、連続するページ/チャプタを順に翻訳する部分ベースのアプローチを採用しており、機械翻訳には適さないかもしれない。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,テキストの包括性を高めるランダムサンプリングアプローチを比較した。
その結果,ランダムサンプリング手法はより優れた性能を示した。
聖書から約1,000行のシードコーパスを訓練し、聖書の残りの部分(約30,000行)でテストする場合、ランダムサンプリングは、英語を模擬低資源言語として用いた+11.0BLEU、マヤ語であるイースタン・ポコムチを用いた+4.9BLEUのパフォーマンス向上をもたらす。
さらに,機械翻訳モデルを更新する3つの方法と,人間が編集後のデータ量を増やす方法を比較した。
自己スーパービジョンを使わずに語彙更新後のトレーニングに新しい後編集データを追加することが最善であることが判明した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低いリソース言語に翻訳するアルゴリズムを提案する。
関連論文リスト
- Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - Train Global, Tailor Local: Minimalist Multilingual Translation into
Endangered Languages [26.159803412486955]
人道的なシナリオでは、非常に低いリソース言語への翻訳は、しばしば普遍的な翻訳エンジンを必要としない。
我々は、多くのリッチリソース言語からの翻訳資源を活用して、最大限の翻訳品質を効率よく生成しようと試みている。
事前訓練済みの大規模多言語モデルをまずドメイン/テキストに適用し,次いでリソースの少ない言語に適応することが最善であることがわかった。
論文 参考訳(メタデータ) (2023-05-05T23:22:16Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。