論文の概要: Machine Translation Advancements of Low-Resource Indian Languages by Transfer Learning
- arxiv url: http://arxiv.org/abs/2409.15879v1
- Date: Tue, 24 Sep 2024 08:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:21:18.668319
- Title: Machine Translation Advancements of Low-Resource Indian Languages by Transfer Learning
- Title(参考訳): トランスファーラーニングによる低資源インド語の機械翻訳
- Authors: Bin Wei, Jiawei Zhen, Zongyao Li, Zhanglin Wu, Daimeng Wei, Jiaxin Guo, Zhiqiang Rao, Shaojun Li, Yuanchang Luo, Hengchao Shang, Jinlong Yang, Yuhao Xie, Hao Yang,
- Abstract要約: 低リソースのインド語に対する信頼性の高い機械翻訳システムを開発するために,我々は2つの異なる知識伝達戦略を採用している。
Assamese(as)とManipuri(mn)については、既存のIndicTrans2オープンソースモデルを微調整して、英語とこれらの言語間の双方向翻訳を可能にした。
Khasi (kh) と Mizo (mz) については,これら4つの言語ペアのバイリンガルデータと約8kwの英語-ベンガルバイリンガルデータを用いて,ベースラインとして多言語モデルを訓練した。
- 参考スコア(独自算出の注目度): 9.373815852241648
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces the submission by Huawei Translation Center (HW-TSC) to the WMT24 Indian Languages Machine Translation (MT) Shared Task. To develop a reliable machine translation system for low-resource Indian languages, we employed two distinct knowledge transfer strategies, taking into account the characteristics of the language scripts and the support available from existing open-source models for Indian languages. For Assamese(as) and Manipuri(mn), we fine-tuned the existing IndicTrans2 open-source model to enable bidirectional translation between English and these languages. For Khasi (kh) and Mizo (mz), We trained a multilingual model as a baseline using bilingual data from these four language pairs, along with an additional about 8kw English-Bengali bilingual data, all of which share certain linguistic features. This was followed by fine-tuning to achieve bidirectional translation between English and Khasi, as well as English and Mizo. Our transfer learning experiments produced impressive results: 23.5 BLEU for en-as, 31.8 BLEU for en-mn, 36.2 BLEU for as-en, and 47.9 BLEU for mn-en on their respective test sets. Similarly, the multilingual model transfer learning experiments yielded impressive outcomes, achieving 19.7 BLEU for en-kh, 32.8 BLEU for en-mz, 16.1 BLEU for kh-en, and 33.9 BLEU for mz-en on their respective test sets. These results not only highlight the effectiveness of transfer learning techniques for low-resource languages but also contribute to advancing machine translation capabilities for low-resource Indian languages.
- Abstract(参考訳): 本稿では,Huawei Translation Center (HW-TSC)によるWMT24 Indian Languages Machine Translation (MT) Shared Taskについて紹介する。
低リソースのインドの言語に対する信頼性の高い機械翻訳システムを開発するために,言語スクリプトの特徴と既存のインドの言語用オープンソースモデルから利用できるサポートを考慮し,2つの異なる知識伝達戦略を採用した。
Assamese(as)とManipuri(mn)については、既存のIndicTrans2オープンソースモデルを微調整して、英語とこれらの言語間の双方向翻訳を可能にした。
Khasi (kh) と Mizo (mz) については,これら4つの言語ペアのバイリンガルデータと約8kwの英語-ベンガルのバイリンガルデータを用いて,多言語モデルをベースラインとして訓練した。
その後、英語とカシ語、英語とミゾ語を双方向で翻訳する微調整が行われた。
トランスファー学習実験では,23.5 BLEU for en-as,31.8 BLEU for en-mn,36.2 BLEU for as-en,47.9 BLEU for mn-enの各試験セットが得られた。
同様に、多言語モデル移行学習実験は、en-khで19.7 BLEU、en-mzで32.8 BLEU、kh-enで16.1 BLEU、mz-enで33.9 BLEUを達成した。
これらの結果は、低リソース言語における転送学習技術の有効性を浮き彫りにするだけでなく、低リソースインドの言語における機械翻訳能力の向上にも寄与する。
関連論文リスト
- Low-Resource Machine Translation through Retrieval-Augmented LLM Prompting: A Study on the Mambai Language [1.1702440973773898]
本研究では,Timor-Lesteで話される低音源のオーストロネシア語であるMambaiへの英語翻訳における大規模言語モデルの利用について検討した。
提案手法は, 並列文と辞書エントリの戦略的な選択と, プロンプトのための手法である。
辞書をインプロンプトに含め,-IDFで検索した文とセマンティック埋め込みを混合することにより,翻訳品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-07T05:04:38Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Enhancing Translation for Indigenous Languages: Experiments with
Multilingual Models [57.10972566048735]
本稿では,3つの方法のシステム記述について述べる。
M2M-100とmBART50という2つの多言語モデルと1つのバイリンガル(1対1)-ヘルシンキNLPスペイン語翻訳モデルを使いました。
アメリカから11の言語を実験し、使用したセットアップと、達成した成果を報告しました。
論文 参考訳(メタデータ) (2023-05-27T08:10:40Z) - Parallel Corpus for Indigenous Language Translation: Spanish-Mazatec and
Spanish-Mixtec [51.35013619649463]
本稿では,機械翻訳(MT)タスクのための並列型スパニッシュ・マザテックとスパニッシュ・ミクテック・コーパスを提案する。
本研究では, トランスフォーマー, トランスファーラーニング, 微調整済み多言語MTモデルの3つのアプローチを用いて, 収集したコーパスのユーザビリティを評価した。
その結果,Mixtecのデータセットサイズ(9,799文),Mixtecの13,235文)が翻訳性能に影響を及ぼし,対象言語として使用する場合のネイティブ言語の性能が向上した。
論文 参考訳(メタデータ) (2023-05-27T08:03:44Z) - Ensembling of Distilled Models from Multi-task Teachers for Constrained
Resource Language Pairs [0.0]
我々は、ベンガル語からヒンディー語、英語からハウサ語、Xhosaからズールー語までの3つの比較的低いリソース言語対に焦点を当てている。
並列データと単言語データの両方を用いたマルチタスク目的を用いた多言語モデルを訓練する。
BLEUの英語とハウサ語との相対的な増加率は約70%、ベンガル語とヒンディー語、チョーサ語とズールー語の両方の相対的な改善率は約25%である。
論文 参考訳(メタデータ) (2021-11-26T00:54:37Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - Bilingual Dictionary-based Language Model Pretraining for Neural Machine
Translation [0.0]
辞書からの翻訳情報をプリトレーニングプロセスに組み込み、新しいバイリンガル辞書ベース言語モデル(BDLM)を提案します。
BDLMを中国語、英語、ルーマニア語で評価します。
論文 参考訳(メタデータ) (2021-03-12T02:01:22Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。