論文の概要: Enhancing Neural Machine Translation of Low-Resource Languages: Corpus
Development, Human Evaluation and Explainable AI Architectures
- arxiv url: http://arxiv.org/abs/2403.01580v1
- Date: Sun, 3 Mar 2024 18:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:47:15.285141
- Title: Enhancing Neural Machine Translation of Low-Resource Languages: Corpus
Development, Human Evaluation and Explainable AI Architectures
- Title(参考訳): 低リソース言語のニューラルネットワーク翻訳の強化:コーパス開発、人的評価、説明可能なAIアーキテクチャ
- Authors: S\'eamus Lankford
- Abstract要約: Transformerアーキテクチャは、特に高リソースの言語ペアにおいて、ゴールドスタンダードとして際立っている。
低リソース言語のための並列データセットの不足は、機械翻訳開発を妨げる可能性がある。
この論文では、ニューラルネットワーク翻訳モデルの開発、微調整、デプロイのために合理化された2つのオープンソースアプリケーションであるAdaptNMTとAdaptMLLMを紹介している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the current machine translation (MT) landscape, the Transformer
architecture stands out as the gold standard, especially for high-resource
language pairs. This research delves into its efficacy for low-resource
language pairs including both the English$\leftrightarrow$Irish and
English$\leftrightarrow$Marathi language pairs. Notably, the study identifies
the optimal hyperparameters and subword model type to significantly improve the
translation quality of Transformer models for low-resource language pairs.
The scarcity of parallel datasets for low-resource languages can hinder MT
development. To address this, gaHealth was developed, the first bilingual
corpus of health data for the Irish language. Focusing on the health domain,
models developed using this in-domain dataset exhibited very significant
improvements in BLEU score when compared with models from the LoResMT2021
Shared Task. A subsequent human evaluation using the multidimensional quality
metrics error taxonomy showcased the superior performance of the Transformer
system in reducing both accuracy and fluency errors compared to an RNN-based
counterpart.
Furthermore, this thesis introduces adaptNMT and adaptMLLM, two open-source
applications streamlined for the development, fine-tuning, and deployment of
neural machine translation models. These tools considerably simplify the setup
and evaluation process, making MT more accessible to both developers and
translators. Notably, adaptNMT, grounded in the OpenNMT ecosystem, promotes
eco-friendly natural language processing research by highlighting the
environmental footprint of model development. Fine-tuning of MLLMs by adaptMLLM
demonstrated advancements in translation performance for two low-resource
language pairs: English$\leftrightarrow$Irish and
English$\leftrightarrow$Marathi, compared to baselines from the LoResMT2021
Shared Task.
- Abstract(参考訳): 現在の機械翻訳(MT)の世界では、トランスフォーマーアーキテクチャは特に高リソース言語ペアにとって、金の標準として際立っている。
この研究は、英語の$\leftrightarrow$irishと英語の$\leftrightarrow$marathiという2つの言語ペアを含む、低リソースの言語ペアにその効果をもたらす。
特に,低リソース言語ペアのトランスフォーマーモデルの翻訳品質を著しく向上させるために,ハイパーパラメータとサブワードモデルタイプが最適であることを示す。
低リソース言語のための並列データセットの不足は、MT開発を妨げる可能性がある。
これを解決するため、アイルランド語の健康データの最初のバイリンガルコーパスであるgaHealthを開発した。
健康領域に着目して、このドメイン内のデータセットを使用して開発されたモデルは、LoResMT2021共有タスクのモデルと比較して、BLEUスコアを大幅に改善した。
その後の多次元品質指標を用いた人為評価では、トランスフォーマーシステムの優れた性能を示し、RNNベースの手法と比較して精度と流速誤差を低減した。
さらに、本論文では、ニューラルネットワーク翻訳モデルの開発、微調整、デプロイを効率化した2つのオープンソースアプリケーションであるadaptnmtとadaptmllmを導入している。
これらのツールはセットアップと評価のプロセスをかなり単純化し、開発者と翻訳者の両方にmtをよりアクセスしやすくする。
特に、OpenNMTエコシステムに根ざしたAdaptNMTは、モデル開発の環境フットプリントを強調することで、エコフレンドリーな自然言語処理の研究を促進する。
AdaptMLLMによるMLLMの微調整は、LoResMT2021の共有タスクのベースラインと比較して、低リソースの2つの言語ペアである English$\leftrightarrow$Irish と English$\leftrightarrow$Marathi の翻訳性能の進歩を示した。
関連論文リスト
- Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - adaptMLLM: Fine-Tuning Multilingual Language Models on Low-Resource
Languages with Integrated LLM Playgrounds [2.648836772989769]
adaptMLLMは、機械翻訳のための細調整多言語言語モデル(MLLM)のためのオープンソースツールである。
モデル評価のためのさまざまなメトリクスと、アプリケーション内で直接変換サービスとしてモデルをデプロイする機能を提供する。
AdaptMLLMシステムはLoResMT 2021の共有タスクのベースラインと比較して大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T14:49:18Z) - Human Evaluation of English--Irish Transformer-Based NMT [2.648836772989769]
ベストパフォーマンスのTransformerシステムは、RNNベースのモデルと比較して精度と誤差を著しく低減する。
Google Translateに対してベンチマークを行ったところ、我々の翻訳エンジンは大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T11:45:46Z) - Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。