論文の概要: Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages
- arxiv url: http://arxiv.org/abs/2308.05574v1
- Date: Thu, 10 Aug 2023 13:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:17:27.070190
- Title: Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages
- Title(参考訳): ドラビダ語の多言語翻訳における言語類似性とゼロショット学習の検討
- Authors: Danish Ebadulla, Rahul Raman, S. Natarajan, Hridhay Kiran Shetty,
Ashish Harish Shenoy
- Abstract要約: 我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
- 参考スコア(独自算出の注目度): 0.34998703934432673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research in zero-shot translation is plagued by several issues such
as high compute requirements, increased training time and off target
translations. Proposed remedies often come at the cost of additional data or
compute requirements. Pivot based neural machine translation is preferred over
a single-encoder model for most settings despite the increased training and
evaluation time. In this work, we overcome the shortcomings of zero-shot
translation by taking advantage of transliteration and linguistic similarity.
We build a single encoder-decoder neural machine translation system for
Dravidian-Dravidian multilingual translation and perform zero-shot translation.
We compare the data vs zero-shot accuracy tradeoff and evaluate the performance
of our vanilla method against the current state of the art pivot based method.
We also test the theory that morphologically rich languages require large
vocabularies by restricting the vocabulary using an optimal transport based
technique. Our model manages to achieves scores within 3 BLEU of large-scale
pivot-based models when it is trained on 50\% of the language directions.
- Abstract(参考訳): ゼロショット翻訳に関する現在の研究は、高い計算要件、トレーニング時間の増加、ターゲット翻訳の停止など、いくつかの問題に苦しめられている。
提案された改善は、しばしば追加のデータや計算要求のコストがかかる。
Pivotベースのニューラルマシン翻訳は、トレーニングや評価時間の増加にもかかわらず、ほとんどの設定でシングルエンコーダモデルよりも好まれる。
本研究では,翻訳と言語的類似性を利用してゼロショット翻訳の欠点を克服する。
我々はDravidian-Dravidian多言語翻訳のための単一エンコーダデコーダニューラルマシン翻訳システムを構築し,ゼロショット翻訳を行う。
我々は,データとゼロショット精度のトレードオフを比較し,バニラ法の性能をアートピボット法の現状と比較した。
また,形態学的にリッチな言語は語彙を最適なトランスポートベース手法で制限することにより,大きな語彙を必要とするという理論を検証した。
言語方向の50%で学習すると,大規模ピボットベースモデルの3 BLEU以内のスコアが得られた。
関連論文リスト
- Using Machine Translation to Augment Multilingual Classification [0.0]
複数の言語にまたがる分類課題に対して,機械翻訳を用いて多言語モデルを微調整する効果について検討する。
翻訳されたデータは、多言語分類器をチューニングするのに十分な品質であり、この新規な損失技術は、それなしでチューニングされたモデルよりも幾らか改善できることを示す。
論文 参考訳(メタデータ) (2024-05-09T00:31:59Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Rethinking Zero-shot Neural Machine Translation: From a Perspective of
Latent Variables [28.101782382170306]
従来の訓練対象にピボット言語に基づく自動エンコーダ目標を導入し,ゼロショット方向の翻訳精度を向上させる。
提案手法は, 突発的相関を効果的に排除し, 顕著な性能で最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-10T07:18:53Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data [0.0]
多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。
本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:18:45Z) - Subword Segmentation and a Single Bridge Language Affect Zero-Shot
Neural Machine Translation [36.4055239280145]
WMTデータに基づいて学習した多言語EN$leftrightarrow$FR,CS,DE,FIシステムのゼロショット性能について検討した。
ゼロショット翻訳におけるソースのコピーに対するバイアスを観察し、サブワードセグメンテーションの選択がこのバイアスにどのように影響するかを考察する。
論文 参考訳(メタデータ) (2020-11-03T13:45:54Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。