論文の概要: Should we Stop Training More Monolingual Models, and Simply Use Machine
Translation Instead?
- arxiv url: http://arxiv.org/abs/2104.10441v1
- Date: Wed, 21 Apr 2021 10:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 20:48:24.767503
- Title: Should we Stop Training More Monolingual Models, and Simply Use Machine
Translation Instead?
- Title(参考訳): 単言語モデルのトレーニングをやめて、代わりに機械翻訳を使うべきか?
- Authors: Tim Isbister, Fredrik Carlsson, Magnus Sahlgren
- Abstract要約: 機械翻訳は成熟した技術であり、低リソース言語のためのネイティブ言語モデルのトレーニングに深刻な反論を提起する。
英語モデルは前例のないペースで改善され、機械翻訳が改善されているため、低リソース言語からのデータを英語に翻訳することが経験的で環境的な観点からより効果的です。
- 参考スコア(独自算出の注目度): 2.62121275102348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most work in NLP makes the assumption that it is desirable to develop
solutions in the native language in question. There is consequently a strong
trend towards building native language models even for low-resource languages.
This paper questions this development, and explores the idea of simply
translating the data into English, thereby enabling the use of pretrained, and
large-scale, English language models. We demonstrate empirically that a large
English language model coupled with modern machine translation outperforms
native language models in most Scandinavian languages. The exception to this is
Finnish, which we assume is due to inferior translation quality. Our results
suggest that machine translation is a mature technology, which raises a serious
counter-argument for training native language models for low-resource
languages. This paper therefore strives to make a provocative but important
point. As English language models are improving at an unprecedented pace, which
in turn improves machine translation, it is from an empirical and environmental
stand-point more effective to translate data from low-resource languages into
English, than to build language models for such languages.
- Abstract(参考訳): nlpのほとんどの作業は、問題となるネイティブ言語でソリューションを開発することが望ましいと仮定している。
そのため、低リソース言語でもネイティブ言語モデルを構築する傾向が強い。
本稿では,この展開に疑問を呈し,事前学習された大規模英語モデルの利用を可能にするために,データを単に英語に翻訳する手法を検討する。
現代の機械翻訳と組み合わされた大きな英語モデルが、スカンジナビアのほとんどの言語でネイティブ言語モデルよりも優れていることを実証的に示す。
例外はフィンランド語であり、これは翻訳品質の低下によるものである。
以上の結果から,機械翻訳は成熟した技術であり,低リソース言語のためのネイティブ言語モデルをトレーニングする上で,真剣な対抗手段であることが示唆された。
そこで本稿では,挑発的だが重要な論点を提示する。
英語モデルは前例のないペースで改善され、機械翻訳が向上しているため、そのような言語のための言語モデルを構築するよりも、低リソース言語からのデータを英語に翻訳する経験的かつ環境的な観点から、より効果的である。
関連論文リスト
- Do Multilingual Language Models Think Better in English? [24.713751471567395]
翻訳テストは多言語言語モデルの性能を向上させるための一般的な手法である。
本研究では,外部翻訳システムの必要性を克服する自己翻訳という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-02T15:29:22Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Improving Language Model Integration for Neural Machine Translation [43.85486035238116]
暗黙的な言語モデルの説明は言語モデル融合の性能を大幅に向上させることを示す。
暗黙的な言語モデルの説明は言語モデル融合の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-06-08T10:00:19Z) - MALM: Mixing Augmented Language Modeling for Zero-Shot Machine
Translation [0.0]
大規模な事前訓練された言語モデルは、NLPに顕著な進歩をもたらした。
ゼロショット多言語機械翻訳における自己教師付き事前学習とデータ拡張の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-10-01T17:01:30Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models
for African News Translation [25.05948665615943]
我々は16の言語をカバーする新しいアフリカのニュースコーパスを作成し、そのうち8つの言語は既存の評価データセットには含まれない。
提案手法は,少量の高品質翻訳データに基づいて,事前訓練済みの大規模モデルを微調整することである。
論文 参考訳(メタデータ) (2022-05-04T12:11:47Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Many-to-English Machine Translation Tools, Data, and Pretrained Models [19.49814793168753]
機械翻訳研究に有用なツールとして,MTData,NLCodec,RTGを提案する。
500のソース言語から英語に翻訳できる多言語のニューラルマシン翻訳モデルを作成します。
論文 参考訳(メタデータ) (2021-04-01T06:55:12Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。