論文の概要: Beyond Scalar Scores: Reinforcement Learning for Error-Aware Quality Estimation of Machine Translation
- arxiv url: http://arxiv.org/abs/2602.08600v1
- Date: Mon, 09 Feb 2026 12:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.229685
- Title: Beyond Scalar Scores: Reinforcement Learning for Error-Aware Quality Estimation of Machine Translation
- Title(参考訳): Scalarスコアを超えて: 機械翻訳の誤り認識品質評価のための強化学習
- Authors: Archchana Sindhujan, Girish A. Koushik, Shenbin Qian, Diptesh Kanojia, Constantin Orăsan,
- Abstract要約: 品質評価は、参照翻訳に頼ることなく、機械翻訳(MT)出力の品質を評価することを目的としている。
重度リソース不足の言語ペアであるMalayalamに、英語のための最初のセグメントレベルQEデータセットを導入する。
ALOPE-RLは、効率的なアダプタを訓練するポリシーベースの強化学習フレームワークである。
- 参考スコア(独自算出の注目度): 10.050982803590903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality Estimation (QE) aims to assess the quality of machine translation (MT) outputs without relying on reference translations, making it essential for real-world, large-scale MT evaluation. Large Language Models (LLMs) have shown significant promise in advancing the field of quality estimation of machine translation. However, most of the QE approaches solely rely on scalar quality scores, offering no explicit information about the translation errors that should drive these judgments. Moreover, for low-resource languages where annotated QE data is limited, existing approaches struggle to achieve reliable performance. To address these challenges, we introduce the first segment-level QE dataset for English to Malayalam, a severely resource-scarce language pair in the QE domain, comprising human-annotated Direct Assessment (DA) scores and Translation Quality Remarks (TQR), which are short, contextual, free-form annotator comments that describe translation errors. We further introduce ALOPE-RL, a policy-based reinforcement learning framework that trains efficient adapters based on policy rewards derived from DA score and TQR. Integrating error-aware rewards with ALOPE-RL, enables LLMs to reason about translation quality beyond numeric scores. Despite being trained on a small-scale QE dataset, ALOPE-RL achieves state-of-the-art performance on English to Malayalam QE using compact LLMs (<=4B parameters}) fine-tuned with LoRA and 4-bit quantization, outperforming both larger LLM-based baselines and leading encoder-based QE models. Our results demonstrate that error-aware, policy-based learning can deliver strong QE performance under limited data and compute budgets. We release our dataset, code, and trained models to support future research.
- Abstract(参考訳): QE(Quality Estimation)は、参照翻訳に頼ることなく機械翻訳(MT)出力の品質を評価することを目的としており、実世界の大規模MT評価に欠かせないものである。
大規模言語モデル (LLM) は機械翻訳の品質推定の分野を推し進める上で大きな可能性を示唆している。
しかし、QEのアプローチのほとんどはスカラーの品質スコアにのみ依存しており、これらの判断を駆動するはずの翻訳エラーに関する明確な情報を提供していない。
さらに、注釈付きQEデータが限られている低リソース言語では、既存のアプローチは信頼性の高いパフォーマンスを達成するのに苦労している。
これらの課題に対処するために、翻訳エラーを記述した短い文脈で自由形式の注釈付きアノテータコメントである、人間注釈付き直接評価(DA)スコアと翻訳品質基準(TQR)を含む、QEドメインにおける厳しいリソース不足言語ペアであるマラヤラムに、英語のための最初のセグメントレベルQEデータセットを導入した。
さらに、DAスコアとTQRから得られるポリシー報酬に基づいて、効率的なアダプタを訓練するポリシーベースの強化学習フレームワークであるALOPE-RLを紹介する。
ALOPE-RLとエラー認識報酬を統合することで、LLMは数値スコアを超える翻訳品質を推論することができる。
ALOPE-RLは、小規模のQEデータセットでトレーニングされているにもかかわらず、コンパクトなLLM(=4Bパラメータ)を使用してマラヤラムのQEに対して、LoRAと4ビット量子化を微調整し、より大きなLLMベースのベースラインとエンコーダベースのQEモデルの両方を上回るパフォーマンスを達成する。
この結果から,限られたデータと計算予算の下で,エラー認識型ポリシベースの学習によって,QEのパフォーマンスが向上することが示唆された。
将来の研究をサポートするために、データセット、コード、トレーニングされたモデルをリリースします。
関連論文リスト
- LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。
我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。
評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-18T07:24:13Z) - When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。
ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。
この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-01-08T12:54:05Z) - QE-EBM: Using Quality Estimators as Energy Loss for Machine Translation [5.10832476049103]
トレーニング可能な損失ネットワークとして品質推定器を用いるQE-EBMを提案する。
本稿では,ソース言語として英語を用いた低リソース・高リソースターゲット言語について検討する。
論文 参考訳(メタデータ) (2024-10-14T07:39:33Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - PreQuEL: Quality Estimation of Machine Translation Outputs in Advance [32.922128367314194]
PreQuELシステムは、実際の翻訳とは無関係に、ある文がどの程度翻訳されるかを予測する。
タスクのベースラインモデルを開発し,その性能を解析する。
本手法は,品質評価タスクの性能向上にも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-18T18:55:05Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。