論文の概要: Giving the Old a Fresh Spin: Quality Estimation-Assisted Constrained Decoding for Automatic Post-Editing
- arxiv url: http://arxiv.org/abs/2501.17265v1
- Date: Tue, 28 Jan 2025 19:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:11.796618
- Title: Giving the Old a Fresh Spin: Quality Estimation-Assisted Constrained Decoding for Automatic Post-Editing
- Title(参考訳): 古いスピンを贈る: 自動編集のための品質推定による制約付きデコード
- Authors: Sourabh Deoghare, Diptesh Kanojia, Pushpak Bhattacharyya,
- Abstract要約: 復号処理中に単語レベルの品質推定情報を組み込むことで過度補正を緩和する手法を提案する。
英語-ドイツ語,英語-ヒンディー語,英語-マラティア語対に関する実験により,提案手法が大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 43.354917413940534
- License:
- Abstract: Automatic Post-Editing (APE) systems often struggle with over-correction, where unnecessary modifications are made to a translation, diverging from the principle of minimal editing. In this paper, we propose a novel technique to mitigate over-correction by incorporating word-level Quality Estimation (QE) information during the decoding process. This method is architecture-agnostic, making it adaptable to any APE system, regardless of the underlying model or training approach. Our experiments on English-German, English-Hindi, and English-Marathi language pairs show the proposed approach yields significant improvements over their corresponding baseline APE systems, with TER gains of $0.65$, $1.86$, and $1.44$ points, respectively. These results underscore the complementary relationship between QE and APE tasks and highlight the effectiveness of integrating QE information to reduce over-correction in APE systems.
- Abstract(参考訳): 自動編集(APE)システムは、翻訳に不要な修正を加え、最小限の編集の原則から逸脱するオーバーコレクションに苦しむことが多い。
本稿では,デコード処理中に単語レベルの品質推定(QE)情報を組み込むことにより,過剰補正を緩和する手法を提案する。
この方法はアーキテクチャに依存しないため、基盤となるモデルやトレーニングアプローチに関わらず、任意のAPEシステムに適応できる。
英語・ドイツ語・ヒンディー語・英語・マラタイ語の組み合わせによる実験により,提案手法は対応するベースラインAPEシステムに対して,それぞれ0.65$,1.86$,1.44$の値が得られた。
これらの結果は,QEタスクとAPEタスクの相補的関係を強調し,APEシステムにおける過剰補正を減らすためにQE情報の統合の有効性を強調した。
関連論文リスト
- MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Robust ASR Error Correction with Conservative Data Filtering [15.833428810891427]
大規模言語モデルに基づく誤り訂正(EC)は,自動音声認識(ASR)システムの性能を向上させる新しい技術である。
本稿では,ECトレーニングデータが満足すべき2つの基本的な基準を提案する。
低品質のECペアを特定し、そのようなケースでは修正を行わないようにモデルを訓練する。
論文 参考訳(メタデータ) (2024-07-18T09:05:49Z) - APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT
Training Data Creation [48.47548479232714]
本稿では,APEシステムを用いて機械翻訳訓練データのターゲット側の誤差を補正する修復フィルタ手法を提案する。
品質推定(QE)モデルを用いて計算した品質スコアに基づいて,原文と修正文のペアから文対を選択する。
基本モデルよりも英語・マラティー語・マラティー語における機械翻訳システムの性能を5.64点と9.91点に改善した。
論文 参考訳(メタデータ) (2023-12-18T16:06:18Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Bring More Attention to Syntactic Symmetry for Automatic Postediting of
High-Quality Machine Translations [4.217162744375792]
本稿では, APE モデルが対象言語に対する理解を深めることが期待される正規化の言語動機付け手法を提案する。
実験結果から,提案手法は高品位MTにおける最先端アーキテクチャの APE 品質向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-05-17T20:25:19Z) - An Empirical Study of Automatic Post-Editing [56.86393786396992]
APEは、機械翻訳出力のエラーを自動的に修正することで、手作業による後処理の労力を削減することを目的としている。
真のトレーニングデータの不足を軽減するため、現在のAPEシステムの多くは、大規模な人工コーパスを生成するためにデータ拡張手法を採用している。
本研究では,既存のAPEシステムにおける問題点を解析するために,難解なAPEデータセット上での最先端のAPEモデルの出力について検討する。
論文 参考訳(メタデータ) (2022-09-16T07:38:27Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。