論文の概要: An Empirical Study of Automatic Post-Editing
- arxiv url: http://arxiv.org/abs/2209.07759v1
- Date: Fri, 16 Sep 2022 07:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 12:34:07.112590
- Title: An Empirical Study of Automatic Post-Editing
- Title(参考訳): 自動後編集に関する実証的研究
- Authors: Xu Zhang and Xiaojun Wan
- Abstract要約: APEは、機械翻訳出力のエラーを自動的に修正することで、手作業による後処理の労力を削減することを目的としている。
真のトレーニングデータの不足を軽減するため、現在のAPEシステムの多くは、大規模な人工コーパスを生成するためにデータ拡張手法を採用している。
本研究では,既存のAPEシステムにおける問題点を解析するために,難解なAPEデータセット上での最先端のAPEモデルの出力について検討する。
- 参考スコア(独自算出の注目度): 56.86393786396992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic post-editing (APE) aims to reduce manual post-editing efforts by
automatically correcting errors in machine-translated output. Due to the
limited amount of human-annotated training data, data scarcity is one of the
main challenges faced by all APE systems. To alleviate the lack of genuine
training data, most of the current APE systems employ data augmentation methods
to generate large-scale artificial corpora. In view of the importance of data
augmentation in APE, we separately study the impact of the construction method
of artificial corpora and artificial data domain on the performance of APE
models. Moreover, the difficulty of APE varies between different machine
translation (MT) systems. We study the outputs of the state-of-art APE model on
a difficult APE dataset to analyze the problems in existing APE systems.
Primarily, we find that 1) Artificial corpora with high-quality source text and
machine-translated text more effectively improve the performance of APE models;
2) In-domain artificial training data can better improve the performance of APE
models, while irrelevant out-of-domain data actually interfere with the model;
3) Existing APE model struggles with cases containing long source text or
high-quality machine-translated text; 4) The state-of-art APE model works well
on grammatical and semantic addition problems, but the output is prone to
entity and semantic omission errors.
- Abstract(参考訳): 自動後編集(APE)は、機械翻訳出力のエラーを自動的に修正することで、手作業による後編集作業を削減することを目的としている。
人間の注釈付きトレーニングデータの量が限られているため、データ不足はすべてのAPEシステムで直面する主な課題の1つである。
真のトレーニングデータの不足を軽減するため、現在のAPEシステムの多くは、大規模な人工コーパスを生成するためにデータ拡張手法を採用している。
APEにおけるデータ拡張の重要性を考慮して,人工コーパスと人工データ領域の構築方法がAPEモデルの性能に与える影響を別々に検討する。
さらに、APEの難しさは、異なる機械翻訳(MT)システムによって異なる。
現状のAPEモデルの出力を困難なAPEデータセット上で検討し、既存のAPEシステムにおける問題を分析する。
主に、私たちはそれを見つけます。
1) 高品質のソーステキスト及び機械翻訳テキストを備えた人工コーパスは,apモデルの性能をより効果的に改善する。
2) ドメイン内人工トレーニングデータにより、APEモデルの性能が向上する一方、ドメイン外のデータが実際にモデルに干渉する。
3) 既存のapモデルは,長文又は高品質機械翻訳文を含む場合に苦しむ。
4) APEモデルは文法的および意味的付加問題に対してうまく機能するが、出力は実体的および意味的省略エラーに起因する。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - FairFlow: An Automated Approach to Model-based Counterfactual Data Augmentation For NLP [7.41244589428771]
本稿では,FairFlowを提案する。FairFlowは,逆ファクトテキスト生成モデルの学習のための並列データの自動生成手法である。
FairFlowは優れた性能を維持しつつ辞書ベースの単語置換手法の限界を大幅に克服することを示す。
論文 参考訳(メタデータ) (2024-07-23T12:29:37Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Bring More Attention to Syntactic Symmetry for Automatic Postediting of
High-Quality Machine Translations [4.217162744375792]
本稿では, APE モデルが対象言語に対する理解を深めることが期待される正規化の言語動機付け手法を提案する。
実験結果から,提案手法は高品位MTにおける最先端アーキテクチャの APE 品質向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-05-17T20:25:19Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Can Automatic Post-Editing Improve NMT? [9.233407096706744]
自動後編集(APE)は機械翻訳の改善を目的としており、それによって人間の後編集の労力を減らす。
APEは統計機械翻訳(SMT)システムで使用されているが、ニューラル機械翻訳(NMT)システムでは成功していない。
論文 参考訳(メタデータ) (2020-09-30T02:34:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。