論文の概要: Scaling, Simplification, and Adaptation: Lessons from Pretraining on Machine-Translated Text
- arxiv url: http://arxiv.org/abs/2509.17317v1
- Date: Mon, 22 Sep 2025 02:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.212156
- Title: Scaling, Simplification, and Adaptation: Lessons from Pretraining on Machine-Translated Text
- Title(参考訳): スケール、単純化、適応:機械翻訳テキストの事前学習から学んだこと
- Authors: Dan John Velasco, Matthew Theodore Roque,
- Abstract要約: 日本語をインドネシア語とタミル語に翻訳し,MT由来コーパスを用いたGPT-2モデル(124M-774M)を事前学習した。
本研究では,ネイティブテキスト上でのクロスエントロピー損失と,構文探索や下流タスクの精度を評価する。
本研究の結果から, MT-pretrained model のスケーリングによるメリット, (2) ソースサイドの単純化はネイティブテキストへの一般化を損なうこと, (3) ネイティブテキストへの MT-pretrained model の適応は, ネイティブのみのモデルよりも優れた性能が得られることが示唆された。
- 参考スコア(独自算出の注目度): 0.19258299315493077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most languages lack sufficient data for large-scale monolingual pretraining, creating a "data wall." Multilingual pretraining helps but is limited by language imbalance and the "curse of multilinguality." An alternative is to translate high-resource text with machine translation (MT), which raises three questions: (1) How does MT-derived data scale with model capacity? (2) Can source-side transformations (e.g., simplifying English with an LLM) improve generalization to native text? (3) How well do models pretrained on MT-derived data adapt when continually trained on limited native text? We investigate these questions by translating English into Indonesian and Tamil--two typologically distant, lower-resource languages--and pretraining GPT-2 models (124M-774M) on native or MT-derived corpora from raw and LLM-simplified English. We evaluate cross-entropy loss on native text, along with accuracy on syntactic probes and downstream tasks. Our results show that (1) MT-pretrained models benefit from scaling; (2) source-side simplification harms generalization to native text; and (3) adapting MT-pretrained models on native text often yields better performance than native-only models, even with less native data. However, tasks requiring cultural nuance (e.g., toxicity detection) demand more exposure to native data.
- Abstract(参考訳): ほとんどの言語は、大規模なモノリンガル事前学習のための十分なデータを持っておらず、「データウォール」を形成している。
多言語事前学習は、言語不均衡と「多言語性の帰結」によって制限される。
1つの方法は、機械翻訳(MT)による高解像度テキストの翻訳である。
2) ソース側変換(例えば、LLMによる英語の簡略化)は、ネイティブテキストへの一般化を改善することができるか?
(3) MTデータに基づく事前学習モデルは、制限されたネイティブテキストで継続的に訓練された場合、どの程度順応するか?
インドネシア語とタミル語に英語を翻訳し,GPT-2モデル (124M-774M) を原語またはMT由来のコーパスで事前学習し,LLMを単純化した。
本研究では,ネイティブテキスト上でのクロスエントロピー損失と,構文探索や下流タスクの精度を評価する。
これらの結果から,(1) MT事前学習モデルによるスケーリングのメリット,(2) ソースサイドの単純化はネイティブテキストへの一般化を損なうこと,(3) ネイティブテキストへのMT事前学習モデルの適用は,ネイティブデータが少ない場合でも,ネイティブデータよりも優れた性能が得られることが示唆された。
しかし、文化的ニュアンス(例えば毒性検出)を必要とするタスクは、ネイティブデータにより多くの露出を要求する。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Boosting Unsupervised Machine Translation with Pseudo-Parallel Data [2.900810893770134]
本研究では,モノリンガルコーパスから抽出した擬似並列文対と,モノリンガルコーパスから逆転写された合成文対を利用する訓練戦略を提案する。
裏書きされたデータのみに基づいてトレーニングされたベースラインに対して、最大14.5 BLEUポイント(ウクライナ語)の改善を達成しました。
論文 参考訳(メタデータ) (2023-10-22T10:57:12Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。