論文の概要: Synergy with Translation Artifacts for Training and Inference in
Multilingual Tasks
- arxiv url: http://arxiv.org/abs/2210.09588v1
- Date: Tue, 18 Oct 2022 04:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:40:39.884660
- Title: Synergy with Translation Artifacts for Training and Inference in
Multilingual Tasks
- Title(参考訳): 多言語タスクにおける学習と推論のための翻訳アーティファクトとの相乗効果
- Authors: Jaehoon Oh, Jongwoo Ko, and Se-Young Yun
- Abstract要約: 本稿では,両翻訳を同時に組み合わせることで,多言語文分類タスクにおける結果の相乗化が可能であることを示す。
本研究では,SupCon と MixUp を併用した言語間微調整アルゴリズム MUSC を提案する。
- 参考スコア(独自算出の注目度): 11.871523410051527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translation has played a crucial role in improving the performance on
multilingual tasks: (1) to generate the target language data from the source
language data for training and (2) to generate the source language data from
the target language data for inference. However, prior works have not
considered the use of both translations simultaneously. This paper shows that
combining them can synergize the results on various multilingual sentence
classification tasks. We empirically find that translation artifacts stylized
by translators are the main factor of the performance gain. Based on this
analysis, we adopt two training methods, SupCon and MixUp, considering
translation artifacts. Furthermore, we propose a cross-lingual fine-tuning
algorithm called MUSC, which uses SupCon and MixUp jointly and improves the
performance. Our code is available at https://github.com/jongwooko/MUSC.
- Abstract(参考訳): 1) 学習対象言語データから対象言語データを生成すること,(2) 推論対象言語データからソース言語データを生成することである。
しかし、以前の作品では両訳の同時使用は検討されていない。
本稿では,これらを組み合わせることで,様々な多言語文分類タスクにおける結果の相乗効果を示す。
翻訳者によってスタイリングされた翻訳アーティファクトがパフォーマンス向上の主要な要因であることを実証的に見出した。
この分析に基づいて、翻訳アーティファクトを考慮したSupConとMixUpの2つのトレーニング手法を採用する。
さらに,supcon と mixup を併用し,性能を向上した言語間微調整アルゴリズムである musc を提案する。
私たちのコードはhttps://github.com/jongwooko/muscで利用可能です。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Low-Resource Machine Translation through the Lens of Personalized Federated Learning [26.436144338377755]
異種データを用いた自然言語処理に適用可能な新しい手法を提案する。
大規模多言語機械翻訳共有タスクのデータセットを用いて,低リソース機械翻訳タスク上で評価を行った。
MeritFedは、その効果に加えて、トレーニングに使用する各言語の影響を追跡するために適用できるため、高度に解釈可能である。
論文 参考訳(メタデータ) (2024-06-18T12:50:00Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Back-translation for Large-Scale Multilingual Machine Translation [2.8747398859585376]
本稿では,多言語間の共通表現がより優れた多言語翻訳性能をもたらすという仮説を用いて,単一の多言語翻訳システムを構築することを目的とする。
我々は、バイリンガル翻訳から多言語翻訳まで、さまざまなバック翻訳手法の探索を拡大する。
驚いたことに、語彙の小さい方がパフォーマンスが良くなり、モノリンガルの英語データも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-17T18:33:15Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。