論文の概要: On Synthetic Data for Back Translation
- arxiv url: http://arxiv.org/abs/2310.13675v1
- Date: Fri, 20 Oct 2023 17:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 21:31:17.024106
- Title: On Synthetic Data for Back Translation
- Title(参考訳): 逆翻訳のための合成データについて
- Authors: Jiahao Xu, Yubin Ruan, Wei Bi, Guoping Huang, Shuming Shi, Lihui Chen,
Lemao Liu
- Abstract要約: 逆翻訳(BT)はNTT研究分野において最も重要な技術の一つである。
バックトランスレーションNMTの性能を制御する合成データには,品質と重要性の2つの重要な要素を同定する。
そこで本研究では,BTの性能向上のために,両因子のトレードオフを改善するため,合成データを生成するための簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 66.6342561585953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Back translation (BT) is one of the most significant technologies in NMT
research fields. Existing attempts on BT share a common characteristic: they
employ either beam search or random sampling to generate synthetic data with a
backward model but seldom work studies the role of synthetic data in the
performance of BT. This motivates us to ask a fundamental question: {\em what
kind of synthetic data contributes to BT performance?} Through both theoretical
and empirical studies, we identify two key factors on synthetic data
controlling the back-translation NMT performance, which are quality and
importance. Furthermore, based on our findings, we propose a simple yet
effective method to generate synthetic data to better trade off both factors so
as to yield a better performance for BT. We run extensive experiments on WMT14
DE-EN, EN-DE, and RU-EN benchmark tasks. By employing our proposed method to
generate synthetic data, our BT model significantly outperforms the standard BT
baselines (i.e., beam and sampling based methods for data generation), which
proves the effectiveness of our proposed methods.
- Abstract(参考訳): 逆翻訳(BT)はNTT研究分野において最も重要な技術の一つである。
既存のBTの試行は共通の特徴を共有しており、ビームサーチまたはランダムサンプリングを用いて後方モデルで合成データを生成するが、BTの性能における合成データの役割を研究することは滅多にない。
BTのパフォーマンスにどのような合成データが貢献するか?
} 理論的および実証的研究を通じて, バックトランスレーションNMT性能を制御する合成データにおいて, 品質と重要性の2つの重要な因子を同定した。
さらに,本研究では,BTの性能向上のために,両因子のトレードオフを改善するため,合成データを簡便かつ効果的に生成する手法を提案する。
We run extensive experiment on WMT14 DE-EN, EN-DE, and RU-EN benchmark task。
提案手法を用いて合成データを生成することにより、BTモデルは標準BTベースライン(すなわち、データ生成のためのビームとサンプリングに基づく手法)を著しく上回り、提案手法の有効性を実証する。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。