論文の概要: Penalizing Length: Uncovering Systematic Bias in Quality Estimation Metrics
- arxiv url: http://arxiv.org/abs/2510.22028v1
- Date: Fri, 24 Oct 2025 21:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.743937
- Title: Penalizing Length: Uncovering Systematic Bias in Quality Estimation Metrics
- Title(参考訳): ペナライズ長さ:品質評価基準における体系的バイアスの発見
- Authors: Yilin Zhang, Wenda Xu, Zhongtao Liu, Tetsuji Nakagawa, Markus Freitag,
- Abstract要約: 品質評価(QE)メトリクスは、参照なし評価のための機械翻訳において不可欠であり、強化学習のようなタスクにおける報酬信号である。
第一に、QEメトリクスは、高品質でエラーのないテキストであっても、翻訳長の増大を伴うエラーを常に過大予測する。
これらの固有長バイアスは、より長く正しい翻訳を不公平に罰し、QEの再分類やQE指導による強化学習のような応用において、準最適決定につながる可能性がある。
- 参考スコア(独自算出の注目度): 22.666172957826163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quality Estimation (QE) metrics are vital in machine translation for reference-free evaluation and as a reward signal in tasks like reinforcement learning. However, the prevalence and impact of length bias in QE have been underexplored. Through a systematic study of top-performing regression-based and LLM-as-a-Judge QE metrics across 10 diverse language pairs, we reveal two critical length biases: First, QE metrics consistently over-predict errors with increasing translation length, even for high-quality, error-free texts. Second, they exhibit a preference for shorter translations when multiple candidates are available for the same source text. These inherent length biases risk unfairly penalizing longer, correct translations and can lead to sub-optimal decision-making in applications such as QE reranking and QE guided reinforcement learning. To mitigate this, we propose two strategies: (a) applying length normalization during model training, and (b) incorporating reference texts during evaluation. Both approaches were found to effectively reduce the identified length bias.
- Abstract(参考訳): 品質評価(QE)メトリクスは、参照なし評価のための機械翻訳において不可欠であり、強化学習のようなタスクにおける報酬信号である。
しかし、QEにおける長さバイアスの有病率と影響は調査されていない。
10の異なる言語対にわたるトップパフォーマンスの回帰ベースとLDM-as-a-JudgeのQEメトリクスの体系的研究を通じて、2つの臨界長バイアスが明らかになった。
第二に、複数の候補が同じソーステキストで利用できる場合、より短い翻訳を好む。
これらの固有長バイアスは、より長く正しい翻訳を不公平に罰し、QEの再分類やQE指導による強化学習のような応用において、準最適決定につながる可能性がある。
これを緩和するために、我々は2つの戦略を提案する。
(a)模型訓練中に長さ正規化を適用すること、
(b) 評価中に参照テキストを組み込む。
どちらのアプローチも、同定された長さバイアスを効果的に減少させることが発見された。
関連論文リスト
- UNCERTAINTY-LINE: Length-Invariant Estimation of Uncertainty for Large Language Models [51.53270695871237]
UNCERTAINTY-LINEは、名目上は長さ正規化UQ法よりも一貫して改善されていることを示す。
本手法は, ポストホック, モデル非依存であり, 様々なUQ尺度に適用可能である。
論文 参考訳(メタデータ) (2025-05-25T09:30:43Z) - Watching the Watchers: Exposing Gender Disparities in Machine Translation Quality Estimation [28.01631390361754]
本稿では,QE指標の性別バイアスを定義し,検討する。
男性求心性翻訳は女性求心性翻訳よりも高く,性中立性翻訳はペナルティ化されている。
調査の結果は,ジェンダーを中心としたQE指標の開発と評価に新たな焦点をあてることの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-10-14T18:24:52Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。