論文の概要: There's no Data Like Better Data: Using QE Metrics for MT Data Filtering
- arxiv url: http://arxiv.org/abs/2311.05350v1
- Date: Thu, 9 Nov 2023 13:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:16:47.547071
- Title: There's no Data Like Better Data: Using QE Metrics for MT Data Filtering
- Title(参考訳): より優れたデータはない: MTデータフィルタリングにQEメトリックを使用する
- Authors: Jan-Thorsten Peter, David Vilar, Daniel Deutsch, Mara Finkelstein,
Juraj Juraska, Markus Freitag
- Abstract要約: ニューラルネットワーク翻訳システム(NMT)のトレーニングデータにおいて、品質の悪い文対をフィルタリングするためにQEメトリクスを使用した場合の生存可能性について分析する。
トレーニングデータ中の高品質な文ペアを選択することで、トレーニングサイズを半分に減らしながら翻訳品質を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 25.17221095970304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality Estimation (QE), the evaluation of machine translation output without
the need of explicit references, has seen big improvements in the last years
with the use of neural metrics. In this paper we analyze the viability of using
QE metrics for filtering out bad quality sentence pairs in the training data of
neural machine translation systems~(NMT). While most corpus filtering methods
are focused on detecting noisy examples in collections of texts, usually huge
amounts of web crawled data, QE models are trained to discriminate more
fine-grained quality differences. We show that by selecting the highest quality
sentence pairs in the training data, we can improve translation quality while
reducing the training size by half. We also provide a detailed analysis of the
filtering results, which highlights the differences between both approaches.
- Abstract(参考訳): 明示的な参照を必要としない機械翻訳出力の評価である品質推定(qe)は、ここ数年間、ニューラルメトリックスの使用によって大きく改善されている。
本稿では,ニューラルマシン翻訳システム(nmt)の学習データにおいて,品質の悪い文対をフィルタリングするqe指標の有効性について検討する。
ほとんどのコーパスフィルタリング手法は、通常大量のウェブクローリングデータであるテキストの集合におけるノイズのあるサンプルを検出することに重点を置いているが、QEモデルはよりきめ細かい品質差を識別するために訓練されている。
トレーニングデータ中の高品質な文ペアを選択することで、トレーニングサイズを半分に減らしながら翻訳品質を向上させることができることを示す。
また, フィルタリング結果の詳細な解析を行い, 両手法の相違点を明らかにする。
関連論文リスト
- ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT
Training Data Creation [48.47548479232714]
本稿では,APEシステムを用いて機械翻訳訓練データのターゲット側の誤差を補正する修復フィルタ手法を提案する。
品質推定(QE)モデルを用いて計算した品質スコアに基づいて,原文と修正文のペアから文対を選択する。
基本モデルよりも英語・マラティー語・マラティー語における機械翻訳システムの性能を5.64点と9.91点に改善した。
論文 参考訳(メタデータ) (2023-12-18T16:06:18Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Machine Translation Impact in E-commerce Multilingual Search [0.0]
言語間情報検索は機械翻訳の品質と高い相関関係を持つ。
クエリ翻訳の品質を改善することで、検索性能をさらに向上するメリットはほとんど、あるいは全く得られない、というしきい値が存在するかもしれない。
論文 参考訳(メタデータ) (2023-01-31T21:59:35Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Separating Grains from the Chaff: Using Data Filtering to Improve
Multilingual Translation for Low-Resourced African Languages [0.6947064688250465]
本稿では,文対分類器を用いて与えられた雑音データをフィルタリングする手法について述べる。
2つの共通のデータセットから評価することで、我々のアプローチを実証的に検証し、データフィルタリングが全体的な翻訳品質を改善することを示す。
論文 参考訳(メタデータ) (2022-10-19T16:12:27Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Selecting Backtranslated Data from Multiple Sources for Improved Neural
Machine Translation [8.554761233491236]
我々は、ルールベース、フレーズベース統計システム、ニューラルMTシステムで翻訳されたデータが、新しいMTシステムに与える影響を分析する。
我々は、高品質なMTシステムを維持しながら、使用するデータ量を減らすために、異なるデータ選択戦略を利用する。
論文 参考訳(メタデータ) (2020-05-01T10:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。