論文の概要: Towards Semi-Supervised Learning of Automatic Post-Editing:
Data-Synthesis by Infilling Mask with Erroneous Tokens
- arxiv url: http://arxiv.org/abs/2204.03896v1
- Date: Fri, 8 Apr 2022 07:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 12:41:33.578110
- Title: Towards Semi-Supervised Learning of Automatic Post-Editing:
Data-Synthesis by Infilling Mask with Erroneous Tokens
- Title(参考訳): 自動後編集の半教師付き学習に向けて--誤字マスクによるデータ合成
- Authors: WonKee Lee, Seong-Hwan Heo, Baikjin Jung, Jong-Hyeok Lee
- Abstract要約: マスク付きトークンを誤ったトークンで置換することで,ノイズの多いテキストを生成するための雑音生成に基づくデータ合成手法を提案する。
さらに,2つの異なる合成データを組み合わせたコーパスインターリービングを提案する。
実験結果から, 提案手法により生成した合成データを用いることで, APEの性能が大幅に向上することが明らかとなった。
- 参考スコア(独自算出の注目度): 3.0300104033706394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised learning that leverages synthetic training data has been
widely adopted in the field of Automatic post-editing (APE) to overcome the
lack of human-annotated training data. In that context, data-synthesis methods
to create high-quality synthetic data have also received much attention.
Considering that APE takes machine-translation outputs containing translation
errors as input, we propose a noising-based data-synthesis method that uses a
mask language model to create noisy texts through substituting masked tokens
with erroneous tokens, yet following the error-quantity statistics appearing in
genuine APE data. In addition, we propose corpus interleaving, which is to
combine two separate synthetic data by taking only advantageous samples, to
further enhance the quality of the synthetic data created with our noising
method. Experimental results reveal that using the synthetic data created with
our approach results in significant improvements in APE performance upon using
other synthetic data created with different existing data-synthesis methods.
- Abstract(参考訳): 自動後編集(APE)の分野では,人工訓練データを活用した半教師あり学習が広く採用されている。
この文脈では、高品質な合成データを生成するデータ合成手法も注目されている。
APEは、翻訳誤りを含む機械翻訳出力を入力として取り込んでおり、マスク言語モデルを用いて、偽のトークンでマスクされたトークンを置換してノイズの多いテキストを生成するが、真のAPEデータに現れる誤り量統計に従う。
また,有利なサンプルのみを採取して2つの別個の合成データを統合するコーパスインターリーブを提案し,ノーミング法で作成した合成データの品質をさらに向上させる。
実験の結果,提案手法で作成した合成データを用いることで,既存のデータ合成法が異なる合成データを用いた場合,apの性能が大幅に向上することが判明した。
関連論文リスト
- Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。
Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。
提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文 参考訳(メタデータ) (2023-12-09T02:04:25Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Generation and Simulation of Synthetic Datasets with Copulas [0.0]
本稿では,数値変数あるいは分類変数からなる合成データセットを生成するための完全かつ信頼性の高いアルゴリズムを提案する。
我々の方法論を2つのデータセットに適用すると、SMOTEやオートエンコーダといった他の手法よりも優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-30T13:22:44Z) - Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition [18.924716098922683]
合成データによる機械学習は、合成データと実際のデータ分布のギャップのため、簡単ではない。
本稿では,分散ギャップに起因する問題を緩和するために,トレーニング中の2つの新しい手法を提案する。
これらの手法は,合成データを用いた音声認識モデルの訓練を著しく改善することを示す。
論文 参考訳(メタデータ) (2021-10-21T21:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。