論文の概要: NLIP_Lab-IITH Multilingual MT System for WAT24 MT Shared Task
- arxiv url: http://arxiv.org/abs/2410.13443v1
- Date: Thu, 17 Oct 2024 11:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:07.813738
- Title: NLIP_Lab-IITH Multilingual MT System for WAT24 MT Shared Task
- Title(参考訳): WAT24 MT共有タスクのためのNLIP_Lab-IIth多言語MTシステム
- Authors: Maharaj Brahma, Pramit Sahoo, Maunendra Sankar Desarkar,
- Abstract要約: 本稿では,NLIP Lab の多言語機械翻訳システムである WAT24 の多言語 Indic MT タスクにおける共有タスクについて述べる。
本稿では、アライメント合意の目的を用いたIndic言語の事前学習について検討する。
我々は,小型かつ高品質なシードデータを用いて,言語指向の多言語翻訳モデルを微調整した。
- 参考スコア(独自算出の注目度): 9.476463361600826
- License:
- Abstract: This paper describes NLIP Lab's multilingual machine translation system for the WAT24 shared task on multilingual Indic MT task for 22 scheduled languages belonging to 4 language families. We explore pre-training for Indic languages using alignment agreement objectives. We utilize bi-lingual dictionaries to substitute words from source sentences. Furthermore, we fine-tuned language direction-specific multilingual translation models using small and high-quality seed data. Our primary submission is a 243M parameters multilingual translation model covering 22 Indic languages. In the IN22-Gen benchmark, we achieved an average chrF++ score of 46.80 and 18.19 BLEU score for the En-Indic direction. In the Indic-En direction, we achieved an average chrF++ score of 56.34 and 30.82 BLEU score. In the In22-Conv benchmark, we achieved an average chrF++ score of 43.43 and BLEU score of 16.58 in the En-Indic direction, and in the Indic-En direction, we achieved an average of 52.44 and 29.77 for chrF++ and BLEU respectively. Our model\footnote{Our code and models are available at \url{https://github.com/maharajbrahma/WAT2024-MultiIndicMT}} is competitive with IndicTransv1 (474M parameter model).
- Abstract(参考訳): 本稿は,NLIP Lab の多言語機械翻訳システムである WAT24 の多言語 Indic MT タスクについて述べる。
本稿では、アライメント合意の目的を用いたIndic言語の事前学習について検討する。
両言語辞書を用いて、原文からの単語を置換する。
さらに,小型かつ高品質なシードデータを用いて,言語指向の多言語翻訳モデルを微調整した。
我々の主な提案は、22のIndic言語をカバーする243Mパラメータ多言語翻訳モデルである。
IN22-Genベンチマークでは,平均chrF++スコアは46.80点,BLEUスコアは18.19点であった。
Indic-En方向では,平均chrF++スコア56.34と30.82BLEUスコアを達成した。
In22-Convベンチマークでは,平均chrF++スコアが43.43点,BLEUスコアが16.58点,Indic-En方向が52.44点,BLEUが29.77点であった。
我々のモデル\footnote{Our code and model are available at \url{https://github.com/maharajbrahma/WAT2024-MultiIndicMT}} is compete with IndicTransv1 (474M parameter model)。
関連論文リスト
- NLIP_Lab-IITH Low-Resource MT System for WMT24 Indic MT Shared Task [9.476463361600826]
本稿では,WMT 24の低リソースインデックス言語翻訳タスクについて述べる。
我々の一次システムは、事前訓練されたモデルに基づく言語固有の微調整に基づいている。
我々は、eng$rightarrow$as, eng$rightarrow$kha, eng$rightarrow$lus, eng$rightarrow$mniの公式公試セットにおいて、50.6, 42.3, 54.9, 66.3のchrF2スコアを得る。
論文 参考訳(メタデータ) (2024-10-04T08:02:43Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Assessing Translation capabilities of Large Language Models involving
English and Indian Languages [4.067706269490143]
機械翻訳を英語と22のインド語を含む課題として用いて,大規模言語モデルの多言語的機能について検討する。
パラメータ効率のよいLoRAなどの微調整手法と,さらに完全な微調整を併用して,これらの大規模言語モデルを微調整する。
その結果,平均BLEUスコアは13.42,15.93,12.13,12.30,12.07,CHRFスコアは43.98,46.99,42.55,42.42,45.39であった。
論文 参考訳(メタデータ) (2023-11-15T18:58:19Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - Samanantar: The Largest Publicly Available Parallel Corpora Collection
for 11 Indic Languages [4.3857077920223295]
Samanantarは、Indic言語で利用可能な最大の並列コーパスコレクションである。
このコレクションには、英語と11のIndic言語の間の合計4970万の文対が含まれている。
論文 参考訳(メタデータ) (2021-04-12T16:18:20Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。