論文の概要: Data Processing Matters: SRPH-Konvergen AI's Machine Translation System
for WMT'21
- arxiv url: http://arxiv.org/abs/2111.10513v1
- Date: Sat, 20 Nov 2021 03:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-26 04:35:22.880575
- Title: Data Processing Matters: SRPH-Konvergen AI's Machine Translation System
for WMT'21
- Title(参考訳): データ処理の課題:WMT'21のためのSRPH-Konvergen AIの機械翻訳システム
- Authors: Lintang Sutawika and Jan Christian Blaise Cruz
- Abstract要約: We describe the submit of the joint Samsung Research Philippines-Konvergen AI team for the WMT'21 Large Scale Multilingual Translation Task - Small Track 2。
我々は、共有タスクに標準のSeq2Seq Transformerモデルを提出し、主にパフォーマンス向上のためのデータ前処理技術の強みに依存します。
私たちのモデルはインドネシアで最初にJavaneseにランク付けし、エッジモデルアーキテクチャやトレーニングテクニックよりもデータの事前処理が重要であることを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we describe the submission of the joint Samsung Research
Philippines-Konvergen AI team for the WMT'21 Large Scale Multilingual
Translation Task - Small Track 2. We submit a standard Seq2Seq Transformer
model to the shared task without any training or architecture tricks, relying
mainly on the strength of our data preprocessing techniques to boost
performance. Our final submission model scored 22.92 average BLEU on the
FLORES-101 devtest set, and scored 22.97 average BLEU on the contest's hidden
test set, ranking us sixth overall. Despite using only a standard Transformer,
our model ranked first in Indonesian to Javanese, showing that data
preprocessing matters equally, if not more, than cutting edge model
architectures and training techniques.
- Abstract(参考訳): 本稿では,Samsung Research Philippines-Konvergen AIチームのWMT'21 Large Scale Multilingual Translation Task - Small Track 2への参加について述べる。
私たちは、トレーニングやアーキテクチャのトリックなしで、共有タスクに標準のseq2seqトランスフォーマーモデルを提出します。
我々の最終提出モデルはFLORES-101で平均BLEU22.92点、大会の隠れテストセットで平均BLEU22.97点、総合6位となった。
標準的なTransformerのみを使用しても、私たちのモデルはインドネシアで最初にJavaneseにランクインし、データ前処理がエッジモデルアーキテクチャやトレーニングテクニックよりも重要であることを示した。
関連論文リスト
- Mavericks at ArAIEval Shared Task: Towards a Safer Digital Space --
Transformer Ensemble Models Tackling Deception and Persuasion [0.0]
本稿では,各課題のタスク1-Aとタスク2-Aのアプローチについて述べる。
タスクは、与えられたバイナリ分類問題に対して、ツイートとニュース記事のマルチジャンルスニペットを使用する。
タスク1-A(8位)では0.742、タスク2-A(7位)では0.901のマイクロF1スコアを達成した。
論文 参考訳(メタデータ) (2023-11-30T17:26:57Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - TSMind: Alibaba and Soochow University's Submission to the WMT22
Translation Suggestion Task [16.986003476984965]
本稿では,Alibaba と Soochow 大学 TSMind の WMT 2022 Shared Task on Translation Suggestion への共同提出について述べる。
基本的に、大規模な事前学習モデルに基づいて、下流タスクを微調整するモデルパラダイムを利用する。
トレーニングデータの限られた使用状況を考えると,WeTSが提案するデータ拡張戦略に従えば,TSモデルの性能が向上する。
論文 参考訳(メタデータ) (2022-11-16T15:43:31Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。