論文の概要: Quantity vs. Quality of Monolingual Source Data in Automatic Text Translation: Can It Be Too Little If It Is Too Good?
- arxiv url: http://arxiv.org/abs/2410.13783v1
- Date: Thu, 17 Oct 2024 17:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:00.082681
- Title: Quantity vs. Quality of Monolingual Source Data in Automatic Text Translation: Can It Be Too Little If It Is Too Good?
- Title(参考訳): 自動翻訳における単言語ソースデータの量対品質:多すぎると小さすぎるか?
- Authors: Idris Abdulmumin, Bashir Shehu Galadanci, Garba Aliyu, Shamsuddeen Hassan Muhammad,
- Abstract要約: 本研究は, モノリンガルデータも少なすぎるか, 品質に基づく削減が翻訳モデルの性能に与える影響について検討する。
実験により、英語とドイツ語の低リソースNMTでは、利用可能なすべてのデータを利用するよりも、品質やテストデータ領域に基づいて、最も有用な追加データのみを選択する方がよいことが示されている。
- 参考スコア(独自算出の注目度): 2.492943108520374
- License:
- Abstract: Monolingual data, being readily available in large quantities, has been used to upscale the scarcely available parallel data to train better models for automatic translation. Self-learning, where a model is made to learn from its output, is one approach to exploit such data. However, it has been shown that too much of this data can be detrimental to the performance of the model if the available parallel data is comparatively extremely low. In this study, we investigate whether the monolingual data can also be too little and if this reduction, based on quality, has any effect on the performance of the translation model. Experiments have shown that on English-German low-resource NMT, it is often better to select only the most useful additional data, based on quality or closeness to the domain of the test data, than utilizing all of the available data.
- Abstract(参考訳): モノリンガルデータ(英語版)は、多くが容易に利用可能であり、自動翻訳のためのより良いモデルを訓練するために、ほとんど利用可能な並列データをスケールアップするために使われてきた。
自己学習(Self-learning)は、モデルがアウトプットから学習するように作られ、そのようなデータを活用するアプローチのひとつだ。
しかし、これらのデータの多くは、利用可能な並列データが比較的低い場合、モデルの性能に有害であることが示されている。
本研究では,モノリンガルデータも少なすぎるか,この削減が翻訳モデルの性能に与える影響について検討する。
実験により、英語とドイツ語の低リソースNMTでは、利用可能なすべてのデータを活用するよりも、テストデータの領域の品質や近接性に基づいて、最も有用な追加データのみを選択する方がよいことが示されている。
関連論文リスト
- When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale [73.69252847606212]
自動符号化(DAE)と逆翻訳(BT)が機械翻訳(MMT)に与える影響について検討する。
モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。
スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。
論文 参考訳(メタデータ) (2023-05-23T14:48:42Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - The Impact of Data Corruption on Named Entity Recognition for
Low-resourced Languages [0.10641561702689348]
データ可用性と品質は、低リソース言語の自然言語処理において大きな課題である。
低リソース環境における事前学習言語モデルの性能に及ぼすデータ量と品質の影響を計測する。
論文 参考訳(メタデータ) (2022-08-09T07:15:20Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Exploring Monolingual Data for Neural Machine Translation with Knowledge
Distillation [10.745228927771915]
ニューラルマシン翻訳(nmt)のための知識蒸留訓練に含まれる2種類の単言語データについて検討する。
ソース側モノリンガルデータは,ソース側から得られたテストセットによって評価すると,モデルの性能が向上することがわかった。
また、ドメインが同じである限り、教師が使用するデータと同じデータを用いて、生徒モデルのトレーニングは不要であることを示す。
論文 参考訳(メタデータ) (2020-12-31T05:28:42Z) - A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data [0.0]
多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。
本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:18:45Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。