論文の概要: Synthetic Pre-Training Tasks for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2212.09864v1
- Date: Mon, 19 Dec 2022 21:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:53:33.998910
- Title: Synthetic Pre-Training Tasks for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための合成事前学習タスク
- Authors: Zexue He, Graeme Blackwood, Rameswar Panda, Julian McAuley, Rogerio
Feris
- Abstract要約: 本研究では、事前学習が、実際の人間の言語コーパスに依存しない手続き的に生成された合成並列データに与える影響について検討する。
複数の言語対に対する経験的評価は、驚くほど、難読化または純粋に合成された並列データであっても、事前学習の利点を実現できることを示している。
- 参考スコア(独自算出の注目度): 16.6378815054841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training is an effective technique for ensuring robust performance on a
variety of machine learning tasks. It typically depends on large-scale crawled
corpora that can result in toxic or biased models. Such data can also be
problematic with respect to copyright, attribution, and privacy. Pre-training
with synthetic tasks and data is a promising way of alleviating such concerns
since no real-world information is ingested by the model. Our goal in this
paper is to understand what makes for a good pre-trained model when using
synthetic resources. We answer this question in the context of neural machine
translation by considering two novel approaches to translation model
pre-training. Our first approach studies the effect of pre-training on
obfuscated data derived from a parallel corpus by mapping words to a vocabulary
of 'nonsense' tokens. Our second approach explores the effect of pre-training
on procedurally generated synthetic parallel data that does not depend on any
real human language corpus. Our empirical evaluation on multiple language pairs
shows that, to a surprising degree, the benefits of pre-training can be
realized even with obfuscated or purely synthetic parallel data. In our
analysis, we consider the extent to which obfuscated and synthetic pre-training
techniques can be used to mitigate the issue of hallucinated model toxicity.
- Abstract(参考訳): プレトレーニングは、さまざまな機械学習タスクにおける堅牢なパフォーマンスを保証する効果的なテクニックである。
一般的には、毒性または偏りのあるモデルをもたらす大規模なクロールコーパスに依存する。
このようなデータは、著作権、帰属、プライバシーに関しても問題となることがある。
合成タスクとデータによる事前学習は、実際の情報がモデルによって取り込み込まれないため、そのような懸念を緩和する有望な方法である。
本論文の目標は,合成資源を使用する際に,適切な事前学習モデルが何をもたらすのかを理解することである。
本稿では,2つの新しい翻訳モデル事前学習手法を検討することにより,ニューラルマシン翻訳の文脈でこの疑問に答える。
第1のアプローチでは,単語を「ナンセンス」トークンの語彙にマッピングすることで,並列コーパスから得られた難読化データに対する事前学習の効果について検討する。
第2のアプローチは、手続き的に生成された実際の人間の言語コーパスに依存しない合成並列データに対する事前学習の効果を検討する。
複数の言語ペアに対する経験的評価から,不完全あるいは純粋に合成された並列データを用いても,事前学習の利点が実現可能であることが示された。
本分析では,幻覚モデル毒性の問題を緩和するために,難治性および合成前訓練技術がどの程度有効かを検討する。
関連論文リスト
- Non-Fluent Synthetic Target-Language Data Improve Neural Machine
Translation [0.0]
本研究では,非流用目標文を用いた合成学習サンプルが翻訳性能を向上させることを示す。
この改善は、元のトレーニングコーパスのサイズとは無関係である。
論文 参考訳(メタデータ) (2024-01-29T11:52:45Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity [30.647497555295974]
機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
論文 参考訳(メタデータ) (2022-08-29T05:42:22Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。