論文の概要: Findings of the LoResMT 2021 Shared Task on COVID and Sign Language for
Low-resource Languages
- arxiv url: http://arxiv.org/abs/2108.06598v2
- Date: Wed, 18 Aug 2021 14:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 11:25:22.270852
- Title: Findings of the LoResMT 2021 Shared Task on COVID and Sign Language for
Low-resource Languages
- Title(参考訳): LoResMT 2021の低リソース言語における新型コロナウイルスと手話の共有課題の発見
- Authors: Atul Kr. Ojha, Chao-Hong Liu, Katharina Kann, John Ortega, Sheetal
Shatam, Theodorus Fransen
- Abstract要約: 低資源言語の機械翻訳技術に関する第4回ワークショップ(LoResMT)の一環として実施した。
英語$leftrightarrow$Irish, English$leftrightarrow$Marathi, Taiwanese Sign Language$leftrightarrow$Traditional Chinese。
- 参考スコア(独自算出の注目度): 9.635289445173864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present the findings of the LoResMT 2021 shared task which focuses on
machine translation (MT) of COVID-19 data for both low-resource spoken and sign
languages. The organization of this task was conducted as part of the fourth
workshop on technologies for machine translation of low resource languages
(LoResMT). Parallel corpora is presented and publicly available which includes
the following directions: English$\leftrightarrow$Irish,
English$\leftrightarrow$Marathi, and Taiwanese Sign
language$\leftrightarrow$Traditional Chinese. Training data consists of 8112,
20933 and 128608 segments, respectively. There are additional monolingual data
sets for Marathi and English that consist of 21901 segments. The results
presented here are based on entries from a total of eight teams. Three teams
submitted systems for English$\leftrightarrow$Irish while five teams submitted
systems for English$\leftrightarrow$Marathi. Unfortunately, there were no
systems submissions for the Taiwanese Sign language$\leftrightarrow$Traditional
Chinese task. Maximum system performance was computed using BLEU and follow as
36.0 for English--Irish, 34.6 for Irish--English, 24.2 for English--Marathi,
and 31.3 for Marathi--English.
- Abstract(参考訳): 本稿では,低リソース音声と手話の双方を対象とした,COVID-19データの機械翻訳(MT)に焦点を当てたLoResMT 2021共有タスクについて述べる。
この作業は低リソース言語(LoResMT)の機械翻訳技術に関する第4回ワークショップの一環として実施された。
パラレルコーポラ(parallel corpora)は、英語$\leftrightarrow$irish、英語$\leftrightarrow$marathi、台湾語手話$\leftrightarrow$ traditional chineseの順に提示され、公開されている。
訓練データはそれぞれ8112セグメント、20933セグメント、128608セグメントからなる。
Marathi と English には21901セグメントからなる追加の単言語データセットがある。
ここで示される結果は、合計8チームからのエントリに基づいています。
3つのチームが英語$\leftrightarrow$Irishにシステムを提出し、5つのチームが英語$\leftrightarrow$Marathiにシステムを提出した。
残念なことに、台湾の手話$\leftrightarrow$Traditional Chinese taskへのシステム提出は行われなかった。
最大システム性能はBLEUを用いて計算され、英語は36.0、アイルランド語は34.6、英語は24.2、マラタイ語は31.3と続く。
関連論文リスト
- Findings of the IWSLT 2024 Evaluation Campaign [102.7608597658451]
本稿は、第21回IWSLT会議によって組織された共有タスクについて報告する。
共通タスクは、音声翻訳における7つの科学的課題に対処する。
論文 参考訳(メタデータ) (2024-11-07T19:11:55Z) - NLIP_Lab-IITH Low-Resource MT System for WMT24 Indic MT Shared Task [9.476463361600826]
本稿では,WMT 24の低リソースインデックス言語翻訳タスクについて述べる。
我々の一次システムは、事前訓練されたモデルに基づく言語固有の微調整に基づいている。
我々は、eng$rightarrow$as, eng$rightarrow$kha, eng$rightarrow$lus, eng$rightarrow$mniの公式公試セットにおいて、50.6, 42.3, 54.9, 66.3のchrF2スコアを得る。
論文 参考訳(メタデータ) (2024-10-04T08:02:43Z) - Machine Translation Advancements of Low-Resource Indian Languages by Transfer Learning [9.373815852241648]
低リソースのインド語に対する信頼性の高い機械翻訳システムを開発するために,我々は2つの異なる知識伝達戦略を採用している。
Assamese(as)とManipuri(mn)については、既存のIndicTrans2オープンソースモデルを微調整して、英語とこれらの言語間の双方向翻訳を可能にした。
Khasi (kh) と Mizo (mz) については,これら4つの言語ペアのバイリンガルデータと約8kwの英語-ベンガルバイリンガルデータを用いて,ベースラインとして多言語モデルを訓練した。
論文 参考訳(メタデータ) (2024-09-24T08:53:19Z) - UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation [0.09208007322096534]
SemEval-2024 Task 1の目的は、2つの文間の意味的テキスト関連性を特定するモデルを開発することである。
教師付きおよび言語間設定のための2つのSTRモデル、textitTranSem$ と $textitFineSem$ を開発します。
論文 参考訳(メタデータ) (2024-02-20T05:46:29Z) - Enhancing Translation for Indigenous Languages: Experiments with
Multilingual Models [57.10972566048735]
本稿では,3つの方法のシステム記述について述べる。
M2M-100とmBART50という2つの多言語モデルと1つのバイリンガル(1対1)-ヘルシンキNLPスペイン語翻訳モデルを使いました。
アメリカから11の言語を実験し、使用したセットアップと、達成した成果を報告しました。
論文 参考訳(メタデータ) (2023-05-27T08:10:40Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - I4U System Description for NIST SRE'20 CTS Challenge [87.17861348484455]
この原稿は、2020 NIST Speaker Recognition Evaluation (SRE'20) Conversational Telephone Speech (CTS) ChallengeへのI4U提出について記述している。
I4Uの提出は、8つの研究チームの間で活発なコラボレーションによって行われた。
提出は、個々のチームが貢献するトップパフォーマンスサブシステムとサブフュージョンシステムの融合に基づいている。
論文 参考訳(メタデータ) (2022-11-02T13:04:27Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - MMTAfrica: Multilingual Machine Translation for African Languages [0.010742675209112621]
MMTAfricaは,アフリカ6言語を対象とした多言語多言語翻訳システムである。
アフリカ語に関する多言語翻訳には, BT&REC という新たな逆翻訳と再構成の目的を導入する。
FLORES 101ベンチマークによるMMTAfricaの改良について報告する。
論文 参考訳(メタデータ) (2022-04-08T21:42:44Z) - Attentive fine-tuning of Transformers for Translation of low-resourced
languages @LoResMT 2021 [0.1759008116536278]
IndicTransは英語->Marathiのための事前訓練された多言語NMTモデルであり、外部並列コーパスを入力として追加訓練を行う。
我々は,Helsinki-NLP Opus MT English->Irish modelを後者の言語対に適用した。
チーム名はIIITTで、我々のシステムは、それぞれ1, 1, 2, English->Marathi, Irish-> English, and English->Irishにランク付けした。
論文 参考訳(メタデータ) (2021-08-19T08:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。