論文の概要: Yes-MT's Submission to the Low-Resource Indic Language Translation Shared Task in WMT 2024
- arxiv url: http://arxiv.org/abs/2512.15226v1
- Date: Wed, 17 Dec 2025 09:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.91677
- Title: Yes-MT's Submission to the Low-Resource Indic Language Translation Shared Task in WMT 2024
- Title(参考訳): WMT2024における低リソース言語翻訳タスクへのYes-MTの提出
- Authors: Yash Bhaskar, Parameswari Krishnamurthy,
- Abstract要約: 本稿では,WMT 2024 の低リソース言語翻訳作業において,Yes-MT チームが提出したシステムについて述べる。
実験は、微調整された事前訓練モデルを含む様々なアプローチを探索した。
WMT23低リソース言語翻訳タスクテストデータを用いて評価を行った。
- 参考スコア(独自算出の注目度): 1.3177681589844814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the systems submitted by the Yes-MT team for the Low-Resource Indic Language Translation Shared Task at WMT 2024 (Pakray et al., 2024), focusing on translating between English and the Assamese, Mizo, Khasi, and Manipuri languages. The experiments explored various approaches, including fine-tuning pre-trained models like mT5 (Xue et al., 2020) and IndicBart (Dabre et al., 2021) in both multilingual and monolingual settings, LoRA (Hu et al., 2021) fine-tuning IndicTrans2 (Gala et al., 2023), zero-shot and few-shot prompting (Brown, 2020) with large language models (LLMs) like Llama 3 (Dubey et al., 2024) and Mixtral 8x7b (Jiang et al., 2024), LoRA supervised fine-tuning of Llama 3 (Mecklenburg et al., 2024), and training Transformer models (Vaswani, 2017) from scratch. The results were evaluated on the WMT23 Low-Resource Indic Language Translation Shared Task test data using SacreBLEU (Post, 2018) and CHRF (Popovic, 2015), highlighting the challenges of low-resource translation and the potential of LLMs for these tasks, particularly with fine-tuning.
- Abstract(参考訳): 本稿では,WMT 2024 (Pakray et al , 2024) において,Yes-MTチームによって提出された低リソース言語翻訳タスクのためのシステムについて,英語とアサメ語,ミゾ語,カシ語,マニプリ語間の翻訳に焦点を当てた。
実験では、mT5(Xue et al , 2020)やIndicBart(Dabre et al , 2021)といった、多言語と単言語の両方で微調整されたモデル、LoRA(Hu et al , 2021)の微調整されたIndicTrans2(Gala et al , 2023)、Llama 3(Dubey et al , 2024)やMixtral 8x7b(Jiang et al , 2024)のような大きな言語モデル(LLMs)によるゼロショットと少ショットプロンプト(Brown, 2020)、Llama 3(Mecklenburg et al , 2024)の微調整(Meckenburg et al , 2024)、Llama 3(Meckenburg et 2024)の微調整された微調整(Vas, 2017)など、さまざまなアプローチを探求した。
The WMT23 Low-Resource Indic Language Translation Shared Task Test data using SacreBLEU (Post, 2018) and CHRF (Popovic, 2015)で評価し、低リソース翻訳の課題とこれらのタスク、特に微調整におけるLLMの可能性を強調した。
関連論文リスト
- Findings of the WMT 2024 Shared Task on Discourse-Level Literary Translation [75.03292732779059]
我々は、中国語、ドイツ語、ロシア語の3つの方向に注目している。
今年は5つのアカデミックチームと業界チームから10の応募を受け取りました。
システムの公式ランキングは、全体的な人間の判断に基づいている。
論文 参考訳(メタデータ) (2024-12-16T12:54:52Z) - NLIP_Lab-IITH Low-Resource MT System for WMT24 Indic MT Shared Task [9.476463361600826]
本稿では,WMT 24の低リソースインデックス言語翻訳タスクについて述べる。
我々の一次システムは、事前訓練されたモデルに基づく言語固有の微調整に基づいている。
我々は、eng$rightarrow$as, eng$rightarrow$kha, eng$rightarrow$lus, eng$rightarrow$mniの公式公試セットにおいて、50.6, 42.3, 54.9, 66.3のchrF2スコアを得る。
論文 参考訳(メタデータ) (2024-10-04T08:02:43Z) - How Multilingual Are Large Language Models Fine-Tuned for Translation? [13.612090779277281]
並列テキスト上での微調整大型言語モデル(LLM)は、大量の並列データに対して教師あり方式で訓練された専用翻訳システムより優れていることが示されている。
翻訳の微調整は、ゼロショット言語、ゼロショット言語ペア、英語を含まない翻訳タスクのLLMのMT機能にどのように影響しますか?
翻訳の微調整により、ゼロショット言語でも平均で翻訳品質が向上するが、関連する言語ペアによる影響は不均一である。
論文 参考訳(メタデータ) (2024-05-30T22:08:20Z) - MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - Towards Boosting Many-to-Many Multilingual Machine Translation with
Large Language Models [47.39529535727593]
本稿では,大言語モデル(LLM)の多言語多言語翻訳の高速化に焦点をあて,ゼロショット翻訳の方向を重視した。
言語間整合性規則化(XConST)を導入し、異なる言語間の表現ギャップを埋める。
ALMA, Tower, LLaMA-2による実験結果から, 本手法は翻訳性能を継続的に向上することが示された。
論文 参考訳(メタデータ) (2024-01-11T12:11:30Z) - Findings of the WMT 2023 Shared Task on Discourse-Level Literary
Translation: A Fresh Orb in the Cosmos of LLMs [80.05205710881789]
我々は、著作権と文書レベルの中国英語ウェブ小説コーパスをリリースする。
今年は7つのアカデミックチームと業界チームから14の応募を受け取りました。
システムの公式ランキングは、全体的な人間の判断に基づいている。
論文 参考訳(メタデータ) (2023-11-06T14:23:49Z) - NAVER LABS Europe's Multilingual Speech Translation Systems for the
IWSLT 2023 Low-Resource Track [78.80683163990446]
本稿では,IWSLT 2023low-Resource trackにおけるタマシェク・フレンチ・ケチュア・スペイン語音声翻訳のためのNAVER LABS Europeのシステムについて述べる。
本研究は,多言語パラメータ効率ソリューションを用いた低リソース環境における翻訳品質の最大化を試みる。
論文 参考訳(メタデータ) (2023-06-13T13:22:30Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - Aksharantar: Open Indic-language Transliteration datasets and models for
the Next Billion Users [32.23606056944172]
Aksharantarは、モノリンガルコーパスとパラレルコーパスからのマイニングによって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
論文 参考訳(メタデータ) (2022-05-06T05:13:12Z) - IITP at WAT 2021: System description for English-Hindi Multimodal
Translation Task [25.80342658470241]
マルチモーダル情報は、NMTシステムがいくつかのフレーズや単語の曖昧さを取り除くことで翻訳を改善するのに役立つ。
第8回アジア翻訳ワークショップ(WAT-2021)に参加。
論文 参考訳(メタデータ) (2021-07-04T14:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。