論文の概要: DirectQE: Direct Pretraining for Machine Translation Quality Estimation
- arxiv url: http://arxiv.org/abs/2105.07149v1
- Date: Sat, 15 May 2021 06:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:52:39.599638
- Title: DirectQE: Direct Pretraining for Machine Translation Quality Estimation
- Title(参考訳): DirectQE: 機械翻訳品質評価のための直接事前学習
- Authors: Qu Cui, Shujian Huang, Jiahuan Li, Xiang Geng, Zaixiang Zheng, Guoping
Huang, Jiajun Chen
- Abstract要約: データ品質とトレーニングの目的の両方において,予測器と推定器の間にはギャップがある,と我々は主張する。
我々は、QEタスクの直接事前学習を提供するDirectQEと呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.187833219223336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Translation Quality Estimation (QE) is a task of predicting the
quality of machine translations without relying on any reference. Recently, the
predictor-estimator framework trains the predictor as a feature extractor,
which leverages the extra parallel corpora without QE labels, achieving
promising QE performance. However, we argue that there are gaps between the
predictor and the estimator in both data quality and training objectives, which
preclude QE models from benefiting from a large number of parallel corpora more
directly. We propose a novel framework called DirectQE that provides a direct
pretraining for QE tasks. In DirectQE, a generator is trained to produce pseudo
data that is closer to the real QE data, and a detector is pretrained on these
data with novel objectives that are akin to the QE task. Experiments on widely
used benchmarks show that DirectQE outperforms existing methods, without using
any pretraining models such as BERT. We also give extensive analyses showing
how fixing the two gaps contributes to our improvements.
- Abstract(参考訳): 機械翻訳品質推定(英: Machine Translation Quality Estimation、QE)とは、機械翻訳の品質を基準に頼らずに予測するタスクである。
近年,予測器を特徴抽出器として訓練し,QEラベルのない余剰並列コーパスを活用し,有望なQE性能を実現する。
しかし、データ品質とトレーニング目標の両方において予測者と推定者の間にはギャップがあり、qeモデルが多数の並列コーパスから直接恩恵を受けることを妨げると主張している。
我々は、QEタスクの直接事前学習を提供するDirectQEと呼ばれる新しいフレームワークを提案する。
DirectQEでは、ジェネレータが実際のQEデータに近い擬似データを生成するように訓練され、これらのデータに対してQEタスクに似た新しい目的を持つ検出器が事前訓練される。
広く使用されているベンチマークの実験によると、DirectQEはBERTのような事前学習モデルを用いることなく、既存のメソッドよりも優れている。
また、この2つのギャップの修正が改善にどのように貢献するかを詳細に分析する。
関連論文リスト
- Quality Estimation with $k$-nearest Neighbors and Automatic Evaluation for Model-specific Quality Estimation [14.405862891194344]
我々は, MTモデルのトレーニングデータから, $k$-nearest 隣人を用いて情報を抽出する,$k$NN-QE と呼ばれるモデル固有で教師なしQE手法を提案する。
モデル固有のQEのパフォーマンスの測定は、MT出力の品質スコアを提供するため、簡単ではない。
そこで本研究では,人為的な基準値ではなく,基準基準値からの品質スコアをゴールドスタンダードとして活用する自動評価手法を提案する。
論文 参考訳(メタデータ) (2024-04-27T23:52:51Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - A New Tool for Efficiently Generating Quality Estimation Datasets [1.1374578778690623]
品質推定(QE)トレーニングのためのデータ構築には費用がかかり、かなりの人的労力を要する。
単言語または並列コーパスのみを入力として受信することにより、QEデータセットを生成する完全自動擬似QEデータセット生成ツールを提案する。
論文 参考訳(メタデータ) (2021-11-01T08:37:30Z) - MDQE: A More Accurate Direct Pretraining for Machine Translation Quality
Estimation [4.416484585765028]
データ品質とトレーニングの目的の両方において,予測器と推定器の間にはまだギャップがある,と我々は主張する。
本稿では,QEタスクに対してより正確な事前学習を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T09:48:37Z) - Knowledge Distillation for Quality Estimation [79.51452598302934]
QE(Quality Estimation)は、参照翻訳のない機械翻訳の品質を自動的に予測するタスクである。
QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。
提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T12:36:21Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。