論文の概要: Neural machine translation, corpus and frugality
- arxiv url: http://arxiv.org/abs/2101.10650v1
- Date: Tue, 26 Jan 2021 09:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:57:13.826016
- Title: Neural machine translation, corpus and frugality
- Title(参考訳): 神経機械翻訳, コーパス, 虚偽性
- Authors: Raoul Blin
- Abstract要約: 機械翻訳の分野では、数億から数十億の例のコーパスを用いて、ますます強力なシステムへの関心が高まっている。
ここでは, 比較的小さなコーパスを用いて訓練した, パラレルフラゴール>バイリンガル翻訳システムの開発を擁護する。
このコーポラは、ソース言語の75百万の例の単言語サブコーパス、ターゲット言語の600百万の例の2番目の単言語サブコーパス、および600百万の二言語サブコーパスの最大で構成されるべきであると推定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In machine translation field, in both academia and industry, there is a
growing interest in increasingly powerful systems, using corpora of several
hundred million to several billion examples. These systems represent the
state-of-the-art. Here we defend the idea of developing in parallel <<frugal>>
bilingual translation systems, trained with relatively small corpora. Based on
the observation of a standard human professional translator, we estimate that
the corpora should be composed at maximum of a monolingual sub-corpus of 75
million examples for the source language, a second monolingual sub-corpus of 6
million examples for the target language, and an aligned bilingual sub-corpus
of 6 million bi-examples. A less desirable alternative would be an aligned
bilingual corpus of 47.5 million bi-examples.
- Abstract(参考訳): 機械翻訳の分野では、学術と産業の両方において、数億から数十億のコーパスを使用して、ますます強力なシステムへの関心が高まっている。
これらのシステムは最先端のものです。
ここでは,<frugal>>二言語翻訳システムを並列に開発し,比較的小さなコーパスで学習するという考え方を擁護する。
標準の人間の専門翻訳者の観察に基づいて、コーポラは、ソース言語の75百万の例のモノリンガルサブコーパス、ターゲット言語の600百万の例の第二のモノリンガルサブコーパス、および600百万のバイリンガルサブコーパスの最大で構成されるべきであると推定する。
望ましくない選択肢は、47.5百万のバイ例の整列されたバイリンガルコーパスである。
関連論文リスト
- A Recipe of Parallel Corpora Exploitation for Multilingual Large Language Models [64.79218405438871]
最近の研究は、多言語大言語モデルを強化するために並列コーパスを利用する可能性を強調している。
並列コーパスで強化された多言語大言語モデルの性能に及ぼす並列コーパスの品質と量,訓練目標,モデルサイズの影響について検討した。
論文 参考訳(メタデータ) (2024-06-29T13:12:39Z) - Learning Multilingual Sentence Representations with Cross-lingual
Consistency Regularization [46.09132547431629]
220以上の言語をサポートする一対一の多言語文表現モデル MuSR を紹介する。
我々は、多言語NMTフレームワークを採用することで、補助的なTransformerデコーダと組み合わせた多言語トランスフォーマーエンコーダを訓練する。
多言語類似検索とbitextマイニングタスクの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-06-12T07:39:06Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Back-translation for Large-Scale Multilingual Machine Translation [2.8747398859585376]
本稿では,多言語間の共通表現がより優れた多言語翻訳性能をもたらすという仮説を用いて,単一の多言語翻訳システムを構築することを目的とする。
我々は、バイリンガル翻訳から多言語翻訳まで、さまざまなバック翻訳手法の探索を拡大する。
驚いたことに、語彙の小さい方がパフォーマンスが良くなり、モノリンガルの英語データも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-17T18:33:15Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Complete Multilingual Neural Machine Translation [44.98358050355681]
本稿では、英語中心の並列コーパスを充実させるために、多方向整列例を用いて検討する。
このような接続パターンでMNMTを完全多言語ニューラルネットワーク翻訳(cMNMT)と呼ぶ。
対象言語のみに条件付けされた新たなトレーニングデータサンプリング戦略と組み合わせて、cMNMTは全ての言語ペアに対して競合翻訳品質を得る。
論文 参考訳(メタデータ) (2020-10-20T13:03:48Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。