論文の概要: Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training
- arxiv url: http://arxiv.org/abs/2109.02284v1
- Date: Mon, 6 Sep 2021 08:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:43:36.501010
- Title: Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training
- Title(参考訳): 多言語・多領域ニューラルマシン翻訳トレーニングのための不確実性認識バランス
- Authors: Minghao Wu, Yitong Li, Meng Zhang, Liangyou Li, Gholamreza Haffari,
Qun Liu
- Abstract要約: MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
- 参考スコア(独自算出の注目度): 58.72619374790418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning multilingual and multi-domain translation model is challenging as
the heterogeneous and imbalanced data make the model converge inconsistently
over different corpora in real world. One common practice is to adjust the
share of each corpus in the training, so that the learning process is balanced
and low-resource cases can benefit from the high resource ones. However,
automatic balancing methods usually depend on the intra- and inter-dataset
characteristics, which is usually agnostic or requires human priors. In this
work, we propose an approach, MultiUAT, that dynamically adjusts the training
data usage based on the model's uncertainty on a small set of trusted clean
data for multi-corpus machine translation. We experiments with two classes of
uncertainty measures on multilingual (16 languages with 4 settings) and
multi-domain settings (4 for in-domain and 2 for out-of-domain on
English-German translation) and demonstrate our approach MultiUAT substantially
outperforms its baselines, including both static and dynamic strategies. We
analyze the cross-domain transfer and show the deficiency of static and
similarity based methods.
- Abstract(参考訳): 多言語・多ドメイン翻訳モデルの学習は、異種・不均衡なデータが実世界の異なるコーパスに無矛盾に収束させるため、困難である。
トレーニングにおける各コーパスの共有を調整し、学習プロセスのバランスを保ち、低リソースのケースは高いリソースの恩恵を受けることができる。
しかし、自動バランス手法は通常、データセット内およびデータセット間の特性に依存する。
本研究では,マルチコーパス機械翻訳のための,少量の信頼されたクリーンデータに対して,モデルの不確実性に基づいて動的にトレーニングデータ使用量を調整する手法であるmultiuatを提案する。
我々は、多言語(16言語で4つの設定)と多言語設定(2言語で4言語、英蘭翻訳で2言語)の2つの不確実性尺度を実験し、我々のアプローチであるMultiUATは、静的戦略と動的戦略の両方を含むベースラインを大幅に上回っていることを実証した。
クロスドメイン転送を解析し,静的および類似性に基づく手法の欠如を示す。
関連論文リスト
- Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Finding the Right Recipe for Low Resource Domain Adaptation in Neural
Machine Translation [7.2283509416724465]
一般的な翻訳モデルは、しばしば専門領域で正確な翻訳を生成するのに苦労する。
ドメイン適応に対するモノリンガルおよび並列データアプローチの詳細な実験を行った。
私たちの研究には、消費者電子、臨床、バイオメディカルの3つの領域が含まれています。
論文 参考訳(メタデータ) (2022-06-02T16:38:33Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。