論文の概要: A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
- arxiv url: http://arxiv.org/abs/2401.05749v2
- Date: Wed, 5 Jun 2024 20:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:10:18.234184
- Title: A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
- Title(参考訳): Webの衝撃が機械翻訳される:マルチウェイ並列性からの洞察
- Authors: Brian Thompson, Mehak Preet Dhaliwal, Peter Frisch, Tobias Domhan, Marcello Federico,
- Abstract要約: ウェブ上のコンテンツは、しばしば多くの言語に翻訳されることを示し、これらのマルチウェイ翻訳の低品質は、機械翻訳(MT)を用いて作成された可能性が高いことを示している。
また、多くの言語に翻訳されるコンテンツの種類の選択バイアスの証拠も見出され、低品質の英語コンテンツがMTを介して多くの低リソース言語に翻訳されるのと一致している。
私たちの研究は、Webから取り除かれたモノリンガルデータとバイリンガルデータの両方について、多言語大言語モデルのようなトレーニングモデルに関する深刻な懸念を提起します。
- 参考スコア(独自算出の注目度): 9.212370563134206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that content on the web is often translated into many languages, and the low quality of these multi-way translations indicates they were likely created using Machine Translation (MT). Multi-way parallel, machine generated content not only dominates the translations in lower resource languages; it also constitutes a large fraction of the total web content in those languages. We also find evidence of a selection bias in the type of content which is translated into many languages, consistent with low quality English content being translated en masse into many lower resource languages, via MT. Our work raises serious concerns about training models such as multilingual large language models on both monolingual and bilingual data scraped from the web.
- Abstract(参考訳): ウェブ上のコンテンツは、しばしば多くの言語に翻訳されることを示し、これらのマルチウェイ翻訳の低品質は、機械翻訳(MT)を用いて作成された可能性が高いことを示している。
マルチウェイ並列で機械生成されたコンテンツは、下位のリソース言語における翻訳を支配しているだけでなく、それらの言語における全ウェブコンテンツの大部分を構成している。
また、多くの言語に翻訳されるコンテンツの種類の選択バイアスの証拠も、MTを通して低品質の英語コンテンツが多くの低レベルリソース言語に翻訳されるのと一致している。本研究は、モノリンガルデータとバイリンガルデータの両方をウェブから抽出した多言語大言語モデルのようなトレーニングモデルに関する深刻な懸念を提起する。
関連論文リスト
- m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.2728779674405]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。
本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。
実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-26T10:04:24Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Many-to-English Machine Translation Tools, Data, and Pretrained Models [19.49814793168753]
機械翻訳研究に有用なツールとして,MTData,NLCodec,RTGを提案する。
500のソース言語から英語に翻訳できる多言語のニューラルマシン翻訳モデルを作成します。
論文 参考訳(メタデータ) (2021-04-01T06:55:12Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。