論文の概要: Unsupervised Machine Translation On Dravidian Languages
- arxiv url: http://arxiv.org/abs/2103.15877v1
- Date: Mon, 29 Mar 2021 18:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 08:17:17.947192
- Title: Unsupervised Machine Translation On Dravidian Languages
- Title(参考訳): ドラヴィダ言語における教師なし機械翻訳
- Authors: Sai Koneru, Danni Liu and Jan Niehues
- Abstract要約: Unsupervised neural Machine Translation (UNMT) は、ドラヴィディア族のような低リソース言語にとって有益である。
近年,補助並列データの利用が提案され,最先端の成果が得られた。
- 参考スコア(独自算出の注目度): 13.404286929634614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised neural machine translation (UNMT) is beneficial especially for
low resource languages such as those from the Dravidian family. However, UNMT
systems tend to fail in realistic scenarios involving actual low resource
languages. Recent works propose to utilize auxiliary parallel data and have
achieved state-of-the-art results. In this work, we focus on unsupervised
translation between English and Kannada, a low resource Dravidian language. We
additionally utilize a limited amount of auxiliary data between English and
other related Dravidian languages. We show that unifying the writing systems is
essential in unsupervised translation between the Dravidian languages. We
explore several model architectures that use the auxiliary data in order to
maximize knowledge sharing and enable UNMT for distant language pairs. Our
experiments demonstrate that it is crucial to include auxiliary languages that
are similar to our focal language, Kannada. Furthermore, we propose a metric to
measure language similarity and show that it serves as a good indicator for
selecting the auxiliary languages.
- Abstract(参考訳): unmt(unsupervised neural machine translation)は、特にドラヴィダ語族のような低リソース言語にとって有益である。
しかし、UNMTシステムは実際の低リソース言語を含む現実的なシナリオでは失敗する傾向がある。
近年,補助並列データの利用が提案され,最先端の成果が得られた。
本研究では,低資源のドラビダ語であるkannadaと英語の教師なし翻訳に注目した。
さらに,英語と関連するドラビダ語間の補助データも限定的に活用する。
ドラヴィダ語間の教師なし翻訳において,文章体系の統一が不可欠であることを示す。
我々は,知識共有を最大化し,遠方の言語ペアに対してunmtを実現するため,補助データを用いたモデルアーキテクチャをいくつか検討する。
我々の実験は、我々の焦点言語であるkannadaに類似した補助言語を含めることが重要であることを示している。
さらに,言語類似度を測定するための指標を提案し,補助言語選択の指標として有効であることを示す。
関連論文リスト
- Low-Resource Machine Translation through the Lens of Personalized Federated Learning [26.436144338377755]
異種データを用いた自然言語処理に適用可能な新しい手法を提案する。
大規模多言語機械翻訳共有タスクのデータセットを用いて,低リソース機械翻訳タスク上で評価を行った。
MeritFedは、その効果に加えて、トレーニングに使用する各言語の影響を追跡するために適用できるため、高度に解釈可能である。
論文 参考訳(メタデータ) (2024-06-18T12:50:00Z) - A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Multilingual Text Classification for Dravidian Languages [4.264592074410622]
そこで我々はDravidian言語のための多言語テキスト分類フレームワークを提案する。
一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。
一方,モデルが言語間の相関を十分に認識・活用できないという問題を考慮し,さらに言語固有の表現モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-03T04:26:49Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。