論文の概要: Synthetic Pre-Training Tasks for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2212.09864v1
- Date: Mon, 19 Dec 2022 21:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:53:33.998910
- Title: Synthetic Pre-Training Tasks for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための合成事前学習タスク
- Authors: Zexue He, Graeme Blackwood, Rameswar Panda, Julian McAuley, Rogerio
Feris
- Abstract要約: 本研究では、事前学習が、実際の人間の言語コーパスに依存しない手続き的に生成された合成並列データに与える影響について検討する。
複数の言語対に対する経験的評価は、驚くほど、難読化または純粋に合成された並列データであっても、事前学習の利点を実現できることを示している。
- 参考スコア(独自算出の注目度): 16.6378815054841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training is an effective technique for ensuring robust performance on a
variety of machine learning tasks. It typically depends on large-scale crawled
corpora that can result in toxic or biased models. Such data can also be
problematic with respect to copyright, attribution, and privacy. Pre-training
with synthetic tasks and data is a promising way of alleviating such concerns
since no real-world information is ingested by the model. Our goal in this
paper is to understand what makes for a good pre-trained model when using
synthetic resources. We answer this question in the context of neural machine
translation by considering two novel approaches to translation model
pre-training. Our first approach studies the effect of pre-training on
obfuscated data derived from a parallel corpus by mapping words to a vocabulary
of 'nonsense' tokens. Our second approach explores the effect of pre-training
on procedurally generated synthetic parallel data that does not depend on any
real human language corpus. Our empirical evaluation on multiple language pairs
shows that, to a surprising degree, the benefits of pre-training can be
realized even with obfuscated or purely synthetic parallel data. In our
analysis, we consider the extent to which obfuscated and synthetic pre-training
techniques can be used to mitigate the issue of hallucinated model toxicity.
- Abstract(参考訳): プレトレーニングは、さまざまな機械学習タスクにおける堅牢なパフォーマンスを保証する効果的なテクニックである。
一般的には、毒性または偏りのあるモデルをもたらす大規模なクロールコーパスに依存する。
このようなデータは、著作権、帰属、プライバシーに関しても問題となることがある。
合成タスクとデータによる事前学習は、実際の情報がモデルによって取り込み込まれないため、そのような懸念を緩和する有望な方法である。
本論文の目標は,合成資源を使用する際に,適切な事前学習モデルが何をもたらすのかを理解することである。
本稿では,2つの新しい翻訳モデル事前学習手法を検討することにより,ニューラルマシン翻訳の文脈でこの疑問に答える。
第1のアプローチでは,単語を「ナンセンス」トークンの語彙にマッピングすることで,並列コーパスから得られた難読化データに対する事前学習の効果について検討する。
第2のアプローチは、手続き的に生成された実際の人間の言語コーパスに依存しない合成並列データに対する事前学習の効果を検討する。
複数の言語ペアに対する経験的評価から,不完全あるいは純粋に合成された並列データを用いても,事前学習の利点が実現可能であることが示された。
本分析では,幻覚モデル毒性の問題を緩和するために,難治性および合成前訓練技術がどの程度有効かを検討する。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Synthetic continued pretraining [29.6872772403251]
ドメイン固有文書の小さなコーパス上での合成継続事前学習を提案する。
合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
合成データ拡張が、よりデータ効率のよい学習を可能にするために、どのように知識を"再編成"できるかを示す。
論文 参考訳(メタデータ) (2024-09-11T17:21:59Z) - Fake it to make it: Using synthetic data to remedy the data shortage in joint multimodal speech-and-gesture synthesis [21.210982054134686]
テキストからの音声音声と音声による3Dジェスチャーの同時合成手法は,新しい,新たな分野である。
既存の手法は、すべての構成モダリティからの並列データに基づいて訓練される。
学生-教員法に着想を得て,追加の教材を簡易に合成することで,データ不足に対する直接的な解決法を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:22:19Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity [30.647497555295974]
機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
論文 参考訳(メタデータ) (2022-08-29T05:42:22Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。