論文の概要: An Empirical Study of Automatic Post-Editing
- arxiv url: http://arxiv.org/abs/2209.07759v1
- Date: Fri, 16 Sep 2022 07:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 12:34:07.112590
- Title: An Empirical Study of Automatic Post-Editing
- Title(参考訳): 自動後編集に関する実証的研究
- Authors: Xu Zhang and Xiaojun Wan
- Abstract要約: APEは、機械翻訳出力のエラーを自動的に修正することで、手作業による後処理の労力を削減することを目的としている。
真のトレーニングデータの不足を軽減するため、現在のAPEシステムの多くは、大規模な人工コーパスを生成するためにデータ拡張手法を採用している。
本研究では,既存のAPEシステムにおける問題点を解析するために,難解なAPEデータセット上での最先端のAPEモデルの出力について検討する。
- 参考スコア(独自算出の注目度): 56.86393786396992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic post-editing (APE) aims to reduce manual post-editing efforts by
automatically correcting errors in machine-translated output. Due to the
limited amount of human-annotated training data, data scarcity is one of the
main challenges faced by all APE systems. To alleviate the lack of genuine
training data, most of the current APE systems employ data augmentation methods
to generate large-scale artificial corpora. In view of the importance of data
augmentation in APE, we separately study the impact of the construction method
of artificial corpora and artificial data domain on the performance of APE
models. Moreover, the difficulty of APE varies between different machine
translation (MT) systems. We study the outputs of the state-of-art APE model on
a difficult APE dataset to analyze the problems in existing APE systems.
Primarily, we find that 1) Artificial corpora with high-quality source text and
machine-translated text more effectively improve the performance of APE models;
2) In-domain artificial training data can better improve the performance of APE
models, while irrelevant out-of-domain data actually interfere with the model;
3) Existing APE model struggles with cases containing long source text or
high-quality machine-translated text; 4) The state-of-art APE model works well
on grammatical and semantic addition problems, but the output is prone to
entity and semantic omission errors.
- Abstract(参考訳): 自動後編集(APE)は、機械翻訳出力のエラーを自動的に修正することで、手作業による後編集作業を削減することを目的としている。
人間の注釈付きトレーニングデータの量が限られているため、データ不足はすべてのAPEシステムで直面する主な課題の1つである。
真のトレーニングデータの不足を軽減するため、現在のAPEシステムの多くは、大規模な人工コーパスを生成するためにデータ拡張手法を採用している。
APEにおけるデータ拡張の重要性を考慮して,人工コーパスと人工データ領域の構築方法がAPEモデルの性能に与える影響を別々に検討する。
さらに、APEの難しさは、異なる機械翻訳(MT)システムによって異なる。
現状のAPEモデルの出力を困難なAPEデータセット上で検討し、既存のAPEシステムにおける問題を分析する。
主に、私たちはそれを見つけます。
1) 高品質のソーステキスト及び機械翻訳テキストを備えた人工コーパスは,apモデルの性能をより効果的に改善する。
2) ドメイン内人工トレーニングデータにより、APEモデルの性能が向上する一方、ドメイン外のデータが実際にモデルに干渉する。
3) 既存のapモデルは,長文又は高品質機械翻訳文を含む場合に苦しむ。
4) APEモデルは文法的および意味的付加問題に対してうまく機能するが、出力は実体的および意味的省略エラーに起因する。
関連論文リスト
- The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Bring More Attention to Syntactic Symmetry for Automatic Postediting of
High-Quality Machine Translations [4.217162744375792]
本稿では, APE モデルが対象言語に対する理解を深めることが期待される正規化の言語動機付け手法を提案する。
実験結果から,提案手法は高品位MTにおける最先端アーキテクチャの APE 品質向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-05-17T20:25:19Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Towards Semi-Supervised Learning of Automatic Post-Editing:
Data-Synthesis by Infilling Mask with Erroneous Tokens [3.0300104033706394]
マスク付きトークンを誤ったトークンで置換することで,ノイズの多いテキストを生成するための雑音生成に基づくデータ合成手法を提案する。
さらに,2つの異なる合成データを組み合わせたコーパスインターリービングを提案する。
実験結果から, 提案手法により生成した合成データを用いることで, APEの性能が大幅に向上することが明らかとなった。
論文 参考訳(メタデータ) (2022-04-08T07:48:57Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Can Automatic Post-Editing Improve NMT? [9.233407096706744]
自動後編集(APE)は機械翻訳の改善を目的としており、それによって人間の後編集の労力を減らす。
APEは統計機械翻訳(SMT)システムで使用されているが、ニューラル機械翻訳(NMT)システムでは成功していない。
論文 参考訳(メタデータ) (2020-09-30T02:34:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。