論文の概要: Pretraining Language Models Using Translationese
- arxiv url: http://arxiv.org/abs/2403.13638v3
- Date: Sun, 06 Jul 2025 14:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.036179
- Title: Pretraining Language Models Using Translationese
- Title(参考訳): 翻訳文を用いた言語モデルの事前学習
- Authors: Meet Doshi, Raj Dabre, Pushpak Bhattacharyya,
- Abstract要約: 低リソース言語(LRL)における機械翻訳を用いた合成データとしての翻訳語の有用性について検討する。
我々の単純な手法は、大量のWebcrawled monolingual document (clean) をLRLに翻訳し、次いで、小さいがクリーンなLRLデータに基づいて訓練された小さなLMを用いて翻訳された文書をフィルタリングする。
我々は, フィルターによる合成データの事前学習が, NLUの0.87%, NLGの2.35%の相対的な性能低下につながることを観察した。
- 参考スコア(独自算出の注目度): 47.45957604683302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the utility of translationese as synthetic data created using machine translation for pre-training language models (LMs) for low-resource languages (LRLs). Our simple methodology consists of translating large amounts of web-crawled monolingual documents (clean) into the LRLs, followed by filtering the translated documents using tiny LMs trained on small but clean LRL data. Taking the case of Indian languages, we pre-train LMs from scratch with 28M and 85M parameters, and then fine-tune them for 5 downstream natural language understanding (NLU) and 4 generative (NLG) tasks. We observe that pre-training on filtered synthetic data leads to relative performance drops of only 0.87% for NLU and 2.35% for NLG, compared to pre-training on clean data, and this gap further diminishes upon the inclusion of a small amount of clean data. We also study the impact of synthetic data filtering and the choice of source language for synthetic data generation. Furthermore, evaluating continually pre-trained larger models like Gemma-2B and Llama-3-8B in few-shot settings, we observe that using synthetic data is competitive with using clean data. Our findings suggest that synthetic data shows promise for bridging the pre-training gap between English and LRLs.
- Abstract(参考訳): 本稿では,低リソース言語 (LRL) のための事前学習言語モデル (LM) のための機械翻訳を用いて作成した合成データとしての翻訳文の有用性について検討する。
我々の単純な手法は、大量のWebcrawled monolingual document (clean) をLRLに翻訳し、次いで、小さいがクリーンなLRLデータに基づいて訓練された小さなLMを用いて翻訳された文書をフィルタリングする。
インド語の場合、28Mと85MのパラメータでゼロからLMを事前訓練し、5つの下流自然言語理解(NLU)と4つの生成(NLG)タスクに微調整します。
我々は, フィルタ合成データに対する事前学習が, クリーンデータに対する事前学習と比較して, NLUに対する0.87%, NLGに対する2.35%の相対的な性能低下につながることを観察した。
また、合成データフィルタリングの影響と、合成データ生成におけるソース言語の選択についても検討する。
さらに, Gemma-2B や Llama-3-8B など, 連続的に事前訓練された大規模モデルを数ショット設定で評価した結果, 合成データの利用はクリーンデータと競合することがわかった。
以上の結果から, 合成データは, 英語とLRL間の事前学習ギャップを埋める可能性を示唆している。
関連論文リスト
- Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [107.24906866038431]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
高品質な原文と書き直しテキストが混在すると,22のタスクでそれぞれ1.0,1.3,2.5のパーセンテージが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - Scaling Low-Resource MT via Synthetic Data Generation with LLMs [13.10398947215569]
本研究は7つの多様な対象言語に焦点を当てる。
我々は、英語のEuroparlから文書レベルの合成コーパスを構築し、それを147の追加言語対にピボットすることで拡張する。
本研究は, (i) 効果的なトレーニング体制の同定, (ii) データのHPLTデータセットとの比較, (iii) 英語中心MTを超えてその実用性をテストすることによる実践的応用について検討する。
論文 参考訳(メタデータ) (2025-05-20T14:31:54Z) - Multilingual Language Model Pretraining using Machine-translated Data [33.373858866989536]
高品質なWebデータセットであるFineWeb-Eduを9言語に翻訳する。
TransWebLLMは、クローズドデータを用いて訓練された最先端の多言語モデルに適合し、性能が向上することを示す。
論文 参考訳(メタデータ) (2025-02-18T19:27:53Z) - Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。
さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-12-13T16:13:35Z) - JAPAGEN: Efficient Few/Zero-shot Learning via Japanese Training Dataset Generation with LLM [2.642698101441705]
大規模言語モデル(LLM)は、推論効率の向上やデータ収集に伴うコスト削減といった利点を提供する。
本稿では、LLMが他の言語タスクのための熟練したトレーニングデータジェネレータとして機能するのか、という根本的な研究課題に対処する。
具体的には、LLMを活用して、少数ショットおよびゼロショット学習シナリオ下で教師付きトレーニングデータを合成する。
我々はこの合成データを用いてコンパクトモデル(例えばBERT)を訓練する。
論文 参考訳(メタデータ) (2024-12-09T18:27:32Z) - Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Tagengo: A Multilingual Chat Dataset [3.8073142980733]
74言語で70k以上のプロンプト応答対の高品質なデータセットを提示する。
このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。
論文 参考訳(メタデータ) (2024-05-21T09:06:36Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。