論文の概要: Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study
- arxiv url: http://arxiv.org/abs/2404.08259v1
- Date: Fri, 12 Apr 2024 06:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:45:46.123055
- Title: Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study
- Title(参考訳): 低リソース言語のためのニューラルネットワーク翻訳の検討:バイエルン語を事例として
- Authors: Wan-Hua Her, Udo Kruschwitz,
- Abstract要約: 本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。
我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。
ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。
- 参考スコア(独自算出の注目度): 1.6819960041696331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Translation has made impressive progress in recent years offering close to human-level performance on many languages, but studies have primarily focused on high-resource languages with broad online presence and resources. With the help of growing Large Language Models, more and more low-resource languages achieve better results through the presence of other languages. However, studies have shown that not all low-resource languages can benefit from multilingual systems, especially those with insufficient training and evaluation data. In this paper, we revisit state-of-the-art Neural Machine Translation techniques to develop automatic translation systems between German and Bavarian. We investigate conditions of low-resource languages such as data scarcity and parameter sensitivity and focus on refined solutions that combat low-resource difficulties and creative solutions such as harnessing language similarity. Our experiment entails applying Back-translation and Transfer Learning to automatically generate more training data and achieve higher translation performance. We demonstrate noisiness in the data and present our approach to carry out text preprocessing extensively. Evaluation was conducted using combined metrics: BLEU, chrF and TER. Statistical significance results with Bonferroni correction show surprisingly high baseline systems, and that Back-translation leads to significant improvement. Furthermore, we present a qualitative analysis of translation errors and system limitations.
- Abstract(参考訳): 機械翻訳は近年、多くの言語で人間レベルのパフォーマンスに近づき、目覚ましい進歩を遂げています。
大規模言語モデルの成長の助けにより、他の言語の存在によって、より低リソースな言語がより良い結果を得るようになる。
しかし、低リソース言語が多言語システム、特に訓練と評価の不十分な言語から恩恵を受けるわけではないことが研究で示されている。
本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。
我々は,データ不足やパラメータ感度などの低リソース言語の条件を調査し,低リソースの困難に対処する洗練されたソリューションと,言語類似性を利用した創造的ソリューションに焦点をあてる。
我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。
データのノイズを実証し,テキスト前処理を広範囲に行うためのアプローチを提案する。
BLEU, chrF, TERを併用して評価を行った。
ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。
さらに,翻訳エラーとシステム制限の質的解析について述べる。
関連論文リスト
- Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。