論文の概要: Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing
- arxiv url: http://arxiv.org/abs/2105.08807v1
- Date: Tue, 18 May 2021 19:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:54:17.488674
- Title: Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing
- Title(参考訳): 合成符号ミキシングによる機械翻訳への英語テキスト変換器の探索
- Authors: Ganesh Jawahar, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed, Laks
V.S. Lakshmanan
- Abstract要約: モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。
事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。
私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
- 参考スコア(独自算出の注目度): 19.19256927651015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe models focused at the understudied problem of translating between
monolingual and code-mixed language pairs. More specifically, we offer a wide
range of models that convert monolingual English text into Hinglish (code-mixed
Hindi and English). Given the recent success of pretrained language models, we
also test the utility of two recent Transformer-based encoder-decoder models
(i.e., mT5 and mBART) on the task finding both to work well. Given the paucity
of training data for code-mixing, we also propose a dependency-free method for
generating code-mixed texts from bilingual distributed representations that we
exploit for improving language model performance. In particular, armed with
this additional data, we adopt a curriculum learning approach where we first
finetune the language models on synthetic data then on gold code-mixed data. We
find that, although simple, our synthetic code-mixing method is competitive
with (and in some cases is even superior to) several standard methods
(backtranslation, method based on equivalence constraint theory) under a
diverse set of conditions. Our work shows that the mT5 model, finetuned
following the curriculum learning procedure, achieves best translation
performance (12.67 BLEU). Our models place first in the overall ranking of the
English-Hinglish official shared task.
- Abstract(参考訳): 単言語対とコード混合言語対の翻訳問題に焦点をあてたモデルについて述べる。
具体的には、モノリンガルな英語のテキストをHinglish(コードミキシングされたヒンディー語と英語)に変換する幅広いモデルを提供しています。
最近の事前学習された言語モデルの成功を考えると、我々は2つのトランスフォーマベースのエンコーダ-デコーダモデル(すなわちmt5とmbart)の有用性をテストし、両方がうまく機能するようにした。
また,コード混合のための学習データのpaucityを考慮し,バイリンガル分散表現からコード混合テキストを生成するための依存性のない手法を提案し,言語モデルの性能向上に活用する。
特に、この追加データを用いて、まず合成データ上で言語モデルを微調整し、次にゴールドコード混合データを用いて、カリキュラム学習アプローチを採用する。
単純ではあるが,本手法は様々な条件下で,いくつかの標準手法(逆変換法,同値制約理論に基づく方法)と競合する(場合によってはさらに優れている)ことが判明した。
本研究は,mT5モデルをカリキュラム学習手順に従って微調整し,最高の翻訳性能(12.67BLEU)を達成することを示す。
私たちのモデルは、英語と英語の公式共有タスク全体のランキングで第一位です。
関連論文リスト
- Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - The Effect of Alignment Objectives on Code-Switching Translation [0.0]
我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
論文 参考訳(メタデータ) (2023-09-10T14:46:31Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Investigating Code-Mixed Modern Standard Arabic-Egyptian to English
Machine Translation [6.021269454707625]
コード混在の現代標準アラビア語とエジプト・アラビア語(MSAEA)を英語に調査する。
我々は、(i)標準のエンドツーエンドシーケンス・ツー・シーケンス(S2S)変換器と(ii)事前訓練されたS2S言語モデル(LM)を用いて、異なる条件下でモデルを開発する。
我々は、スクラッチから訓練されたS2Sモデルと様々なアラビア方言のデータに基づいて微調整されたLMを用いて、MSA-EN並列データのみを用いて、合理的な性能を得ることができる。
論文 参考訳(メタデータ) (2021-05-28T03:38:35Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。