論文の概要: How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training?
- arxiv url: http://arxiv.org/abs/2204.14268v1
- Date: Fri, 29 Apr 2022 17:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 13:17:42.334306
- Title: How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training?
- Title(参考訳): 多言語トークン化訓練における言語不均衡へのニューラルマシン翻訳の頑健性
- Authors: Shiyue Zhang, Vishrav Chaudhary, Naman Goyal, James Cross, Guillaume
Wenzek, Mohit Bansal, Francisco Guzman
- Abstract要約: トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
- 参考スコア(独自算出の注目度): 86.48323488619629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A multilingual tokenizer is a fundamental component of multilingual neural
machine translation. It is trained from a multilingual corpus. Since a skewed
data distribution is considered to be harmful, a sampling strategy is usually
used to balance languages in the corpus. However, few works have systematically
answered how language imbalance in tokenizer training affects downstream
performance. In this work, we analyze how translation performance changes as
the data ratios among languages vary in the tokenizer training corpus. We find
that while relatively better performance is often observed when languages are
more equally sampled, the downstream performance is more robust to language
imbalance than we usually expected. Two features, UNK rate and closeness to the
character level, can warn of poor downstream performance before performing the
task. We also distinguish language sampling for tokenizer training from
sampling for model training and show that the model is more sensitive to the
latter.
- Abstract(参考訳): 多言語トークン化器は多言語ニューラルマシン翻訳の基本的な構成要素である。
多言語コーパスから訓練されている。
歪んだデータ分布は有害であると考えられるため、通常、サンプリング戦略はコーパス内の言語のバランスをとるために使用される。
しかし、トークン化学習における言語不均衡が下流のパフォーマンスに与える影響について体系的に答える研究はほとんどない。
本研究では,トークン化学習コーパスにおいて,言語間のデータ比率が変化するにつれて翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされた場合、比較的優れたパフォーマンスがしばしば見られるが、下流のパフォーマンスは、通常予想していたよりも言語不均衡に対して堅牢である。
UNKレートと文字レベルに近い2つの特徴は、タスクを実行する前に下流のパフォーマンスが低いことを警告することができる。
また,トークン化学習のための言語サンプリングとモデルトレーニングのためのサンプリングを区別し,後者に対してより敏感なモデルを示す。
関連論文リスト
- The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - Automatic Discrimination of Human and Neural Machine Translation in
Multilingual Scenarios [4.631167282648452]
我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
論文 参考訳(メタデータ) (2023-05-31T11:41:24Z) - Multitasking Models are Robust to Structural Failure: A Neural Model for
Bilingual Cognitive Reserve [78.3500985535601]
マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。
実験の結果,バイリンガル言語モデルは様々なニューロン摂動下で高い性能を維持していることがわかった。
線形表現学習を数学的に解析することにより,このロバスト性を理論的に正当化する。
論文 参考訳(メタデータ) (2022-10-20T22:23:27Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Improving Zero-Shot Cross-Lingual Transfer Learning via Robust Training [45.48003947488825]
私達は2つの広く利用された強い訓練方法を研究します:反対の訓練およびランダム化された平滑化。
実験の結果,ロバストトレーニングにより,テキスト分類におけるゼロショット言語間転送が改善されることがわかった。
論文 参考訳(メタデータ) (2021-04-17T21:21:53Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。