論文の概要: Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese
- arxiv url: http://arxiv.org/abs/2403.13638v1
- Date: Wed, 20 Mar 2024 14:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-21 16:38:11.043203
- Title: Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese
- Title(参考訳): データを持っていなければ心配するな - 翻訳を使って事前訓練された言語モデルを構築する
- Authors: Meet Doshi, Raj Dabre, Pushpak Bhattacharyya,
- Abstract要約: 事前学習には大量のモノリンガルデータが必要であるが、ほとんど英語以外の言語では利用できない。
我々は、英語とIndic言語を例にとり、Webcrawled monolingual document (clean)を対象言語に翻訳する。
そして、この翻訳データに基づいて28Mと85Mのパラメータを含む言語モデルを訓練する(合成)。
下流の自然言語理解および生成タスクにおけるそれらのパフォーマンスは、クリーンデータで事前訓練されたLMよりも、NLUタスクで3.56%、NLGタスクで1.51%しか劣らない。
- 参考スコア(独自算出の注目度): 47.45957604683302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the utility of \textit{Translationese} as synthetic data created using machine translation for pre-training language models (LMs). Pre-training requires vast amounts of monolingual data, which is mostly unavailable for languages other than English. Recently, there has been a growing interest in using synthetic data to address this data scarcity. We take the case of English and Indic languages and translate web-crawled monolingual documents (clean) into the target language. Then, we train language models containing 28M and 85M parameters on this translationese data (synthetic). We show that their performance on downstream natural language understanding and generative tasks is only 3.56\% poorer on NLU tasks and 1.51\% on NLG tasks than LMs pre-trained on clean data. Further, we propose the use of lightweight \textit{TinyLMs} pre-trained on clean data to filter synthetic data efficiently which significantly improves the performance of our models. We also find that LMs trained on synthetic data strongly benefit from extended pretraining on a tiny fraction (10\%) of clean data. We release the data we collected and created as a part of this work, \textit{IndicMonoDoc}, the largest collection of monolingual document-level corpora, which we hope will help bridge the gap between English and non-English performance for large language models.
- Abstract(参考訳): 本稿では,機械翻訳を用いた事前学習言語モデル(LM)の合成データとして,‘textit{Translationese} の有用性について検討する。
事前学習には大量のモノリンガルデータが必要であるが、ほとんど英語以外の言語では利用できない。
近年、このデータ不足に対処するために合成データを使うことへの関心が高まっている。
我々は、英語とIndic言語を例にとり、Webcrawled monolingual document (clean)を対象言語に翻訳する。
そして、この翻訳データ(合成)に基づいて28Mと85Mのパラメータを含む言語モデルを訓練する。
下流の自然言語理解および生成タスクにおけるそれらの性能は、クリーンデータで事前訓練されたLMよりも、NLUタスクで3.56倍、NLGタスクで1.51倍しか劣らないことを示す。
さらに、クリーンデータに事前学習した軽量な \textit{TinyLMs} を用いて、合成データを効率的にフィルタリングし、モデルの性能を大幅に改善する。
また, 合成データに基づいてトレーニングしたLMは, 少量 (10 %) のクリーンデータの事前学習に強い効果があることがわかった。
私たちは、この研究の一部として収集し、作成したデータをリリースした。これは、モノリンガルなドキュメントレベルのコーパスの最大のコレクションである \textit{IndicMonoDoc} で、大きな言語モデルにおける英語と非英語のパフォーマンスのギャップを埋める助けになることを期待しています。
関連論文リスト
- Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [107.24906866038431]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
高品質な原文と書き直しテキストが混在すると,22のタスクでそれぞれ1.0,1.3,2.5のパーセンテージが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - Scaling Low-Resource MT via Synthetic Data Generation with LLMs [13.10398947215569]
本研究は7つの多様な対象言語に焦点を当てる。
我々は、英語のEuroparlから文書レベルの合成コーパスを構築し、それを147の追加言語対にピボットすることで拡張する。
本研究は, (i) 効果的なトレーニング体制の同定, (ii) データのHPLTデータセットとの比較, (iii) 英語中心MTを超えてその実用性をテストすることによる実践的応用について検討する。
論文 参考訳(メタデータ) (2025-05-20T14:31:54Z) - Multilingual Language Model Pretraining using Machine-translated Data [33.373858866989536]
高品質なWebデータセットであるFineWeb-Eduを9言語に翻訳する。
TransWebLLMは、クローズドデータを用いて訓練された最先端の多言語モデルに適合し、性能が向上することを示す。
論文 参考訳(メタデータ) (2025-02-18T19:27:53Z) - Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。
さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-12-13T16:13:35Z) - JAPAGEN: Efficient Few/Zero-shot Learning via Japanese Training Dataset Generation with LLM [2.642698101441705]
大規模言語モデル(LLM)は、推論効率の向上やデータ収集に伴うコスト削減といった利点を提供する。
本稿では、LLMが他の言語タスクのための熟練したトレーニングデータジェネレータとして機能するのか、という根本的な研究課題に対処する。
具体的には、LLMを活用して、少数ショットおよびゼロショット学習シナリオ下で教師付きトレーニングデータを合成する。
我々はこの合成データを用いてコンパクトモデル(例えばBERT)を訓練する。
論文 参考訳(メタデータ) (2024-12-09T18:27:32Z) - Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Tagengo: A Multilingual Chat Dataset [3.8073142980733]
74言語で70k以上のプロンプト応答対の高品質なデータセットを提示する。
このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。
論文 参考訳(メタデータ) (2024-05-21T09:06:36Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。