論文の概要: NLIP_Lab-IITH Low-Resource MT System for WMT24 Indic MT Shared Task
- arxiv url: http://arxiv.org/abs/2410.03215v1
- Date: Fri, 4 Oct 2024 08:02:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 02:54:39.820577
- Title: NLIP_Lab-IITH Low-Resource MT System for WMT24 Indic MT Shared Task
- Title(参考訳): WMT24 Indic MT共有タスクのためのNLIP_Lab-IIth低リソースMTシステム
- Authors: Pramit Sahoo, Maharaj Brahma, Maunendra Sankar Desarkar,
- Abstract要約: 本稿では,WMT 24の低リソースインデックス言語翻訳タスクについて述べる。
我々の一次システムは、事前訓練されたモデルに基づく言語固有の微調整に基づいている。
我々は、eng$rightarrow$as, eng$rightarrow$kha, eng$rightarrow$lus, eng$rightarrow$mniの公式公試セットにおいて、50.6, 42.3, 54.9, 66.3のchrF2スコアを得る。
- 参考スコア(独自算出の注目度): 9.476463361600826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe our system for the WMT 24 shared task of Low-Resource Indic Language Translation. We consider eng $\leftrightarrow$ {as, kha, lus, mni} as participating language pairs. In this shared task, we explore the finetuning of a pre-trained model motivated by the pre-trained objective of aligning embeddings closer by alignment augmentation \cite{lin-etal-2020-pre} for 22 scheduled Indian languages. Our primary system is based on language-specific finetuning on a pre-trained model. We achieve chrF2 scores of 50.6, 42.3, 54.9, and 66.3 on the official public test set for eng$\rightarrow$as, eng$\rightarrow$kha, eng$\rightarrow$lus, eng$\rightarrow$mni respectively. We also explore multilingual training with/without language grouping and layer-freezing. Our code, models, and generated translations are available here: https://github.com/pramitsahoo/WMT2024-LRILT.
- Abstract(参考訳): 本稿では,WMT 24の低リソースインデックス言語翻訳におけるタスク共有システムについて述べる。
eng $\leftrightarrow$ {as, kha, lus, mni} を参加言語ペアとみなす。
この共有タスクでは、22のインド諸言語に対するアライメント強化により、埋め込みをより近くに整列させることを目標とした事前学習モデルの微調整について検討する。
我々の一次システムは、事前訓練されたモデルに基づく言語固有の微調整に基づいている。
我々は、eng$\rightarrow$as, eng$\rightarrow$kha, eng$\rightarrow$lus, eng$\rightarrow$mniの公式公試セットにおいて、50.6, 42.3, 54.9, 66.3のchrF2スコアを得る。
また、言語グループ化や層凍結による多言語学習についても検討する。
私たちのコード、モデル、生成された翻訳はここで利用可能です。
関連論文リスト
- NLIP_Lab-IITH Multilingual MT System for WAT24 MT Shared Task [9.476463361600826]
本稿では,NLIP Lab の多言語機械翻訳システムである WAT24 の多言語 Indic MT タスクにおける共有タスクについて述べる。
本稿では、アライメント合意の目的を用いたIndic言語の事前学習について検討する。
我々は,小型かつ高品質なシードデータを用いて,言語指向の多言語翻訳モデルを微調整した。
論文 参考訳(メタデータ) (2024-10-17T11:18:23Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation [0.09208007322096534]
SemEval-2024 Task 1の目的は、2つの文間の意味的テキスト関連性を特定するモデルを開発することである。
教師付きおよび言語間設定のための2つのSTRモデル、textitTranSem$ と $textitFineSem$ を開発します。
論文 参考訳(メタデータ) (2024-02-20T05:46:29Z) - TSMind: Alibaba and Soochow University's Submission to the WMT22
Translation Suggestion Task [16.986003476984965]
本稿では,Alibaba と Soochow 大学 TSMind の WMT 2022 Shared Task on Translation Suggestion への共同提出について述べる。
基本的に、大規模な事前学習モデルに基づいて、下流タスクを微調整するモデルパラダイムを利用する。
トレーニングデータの限られた使用状況を考えると,WeTSが提案するデータ拡張戦略に従えば,TSモデルの性能が向上する。
論文 参考訳(メタデータ) (2022-11-16T15:43:31Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - CUNI systems for WMT21: Multilingual Low-Resource Translation for
Indo-European Languages Shared Task [0.0]
複数の類似言語ペアに対してジョイントモデルを使用することで,各ペアの翻訳品質が向上することを示す。
また,チャララクタレベルのバイリンガルモデルと非常に類似した言語対が競合することを示す。
論文 参考訳(メタデータ) (2021-09-20T08:10:39Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Automatic Machine Translation Evaluation in Many Languages via Zero-Shot
Paraphrasing [11.564158965143418]
我々は,機械翻訳評価の課題を,シーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとして捉えた。
我々は,パラフレーズ処理をゼロショット翻訳タスクとして扱う多言語NMTシステムとして,パラフレーズを訓練することを提案する。
我々の手法は単純で直感的で、訓練には人間の判断を必要としない。
論文 参考訳(メタデータ) (2020-04-30T03:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。