論文の概要: Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task
- arxiv url: http://arxiv.org/abs/2210.09683v1
- Date: Tue, 18 Oct 2022 08:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:39:31.455738
- Title: Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task
- Title(参考訳): アリババ、中国のWMT2022買収提案を検討-関係者
- Authors: Yu Wan, Keqin Bao, Dayiheng Liu, Baosong Yang, Derek F. Wong, Lidia S.
Chao, Wenqiang Lei, Jun Xie
- Abstract要約: 私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。
モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。
微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
- 参考スコア(独自算出の注目度): 61.34108034582074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we present our submission to the WMT 2022 Metrics Shared
Task. We build our system based on the core idea of UNITE (Unified Translation
Evaluation), which unifies source-only, reference-only, and
source-reference-combined evaluation scenarios into one single model.
Specifically, during the model pre-training phase, we first apply the
pseudo-labeled data examples to continuously pre-train UNITE. Notably, to
reduce the gap between pre-training and fine-tuning, we use data cropping and a
ranking-based score normalization strategy. During the fine-tuning phase, we
use both Direct Assessment (DA) and Multidimensional Quality Metrics (MQM) data
from past years' WMT competitions. Specially, we collect the results from
models with different pre-trained language model backbones, and use different
ensembling strategies for involved translation directions.
- Abstract(参考訳): 本稿では,wmt 2022 metrics shared task への提案について述べる。
我々は、ソースのみ、参照のみ、およびソース参照結合の評価シナリオを1つのモデルに統合するunite(unified translation evaluation)というコア概念に基づいてシステムを構築した。
具体的には,モデルプリトレーニングフェーズにおいて,擬似ラベルデータ例を連続プリトレーニングユニットに適用した。
特に,事前学習と微調整のギャップを減らすために,データトリミングとランキングベースのスコア正規化戦略を用いる。
微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
特に,事前学習された言語モデルバックボーンの異なるモデルからの結果を収集し,関連する翻訳方向に対して異なるセンシング戦略を用いる。
関連論文リスト
- Choose the Final Translation from NMT and LLM hypotheses Using MBR Decoding: HW-TSC's Submission to the WMT24 General MT Shared Task [9.819139035652137]
本稿では,Huawei Translate Services Center(HW-TSC)をWMT24汎用機械翻訳(MT)共有タスクに提出する。
我々は、正規化ドロップアウト、双方向トレーニング、データ多様化、前方翻訳、後方翻訳、交互学習、カリキュラム学習、トランスダクティブアンサンブル学習などのトレーニング戦略を用いて、ニューラルマシン翻訳(NMT)モデルをトレーニングする。
論文 参考訳(メタデータ) (2024-09-23T08:25:37Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Unbabel's Participation in the WMT20 Metrics Shared Task [8.621669980568822]
We present the contribution of the Unbabel team to the WMT 2020 Shared Task on Metrics。
すべての言語ペアでセグメントレベル、文書レベル、システムレベルのトラックに参加するつもりです。
前年度のテストセットを参考に、これらのトラックでモデルの結果を説明します。
論文 参考訳(メタデータ) (2020-10-29T12:59:44Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。