論文の概要: PEAR: Pairwise Evaluation for Automatic Relative Scoring in Machine Translation
- arxiv url: http://arxiv.org/abs/2601.18006v1
- Date: Sun, 25 Jan 2026 21:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.57784
- Title: PEAR: Pairwise Evaluation for Automatic Relative Scoring in Machine Translation
- Title(参考訳): PEAR:機械翻訳における自動相対スコーリングのペアワイズ評価
- Authors: Lorenzo Proietti, Roman Grundkiewicz, Matt Post,
- Abstract要約: PEAR(Pairwise Evaluation for Automatic Relative Scoring)は、基準のない機械翻訳(MT)の評価を段階的に比較する、教師付き品質評価(QE)メトリクスファミリーである。
PEARは最小ベイズリスク(MBR)復号化のための有効なユーティリティ機能であり、無視可能な影響でペアスコアリングコストを低減できることを示す。
- 参考スコア(独自算出の注目度): 7.465816202513257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PEAR (Pairwise Evaluation for Automatic Relative Scoring), a supervised Quality Estimation (QE) metric family that reframes reference-free Machine Translation (MT) evaluation as a graded pairwise comparison. Given a source segment and two candidate translations, PEAR predicts the direction and magnitude of their quality difference. The metrics are trained using pairwise supervision derived from differences in human judgments, with an additional regularization term that encourages sign inversion under candidate order reversal. On the WMT24 meta-evaluation benchmark, PEAR outperforms strictly matched single-candidate QE baselines trained with the same data and backbones, isolating the benefit of the proposed pairwise formulation. Despite using substantially fewer parameters than recent large metrics, PEAR surpasses far larger QE models and reference-based metrics. Our analysis further indicates that PEAR yields a less redundant evaluation signal relative to other top metrics. Finally, we show that PEAR is an effective utility function for Minimum Bayes Risk (MBR) decoding, reducing pairwise scoring cost at negligible impact.
- Abstract(参考訳): PEAR(Pairwise Evaluation for Automatic Relative Scoring)は、基準のない機械翻訳(MT)の評価を段階的に比較した、教師付き品質評価(QE)尺度である。
ソースセグメントと2つの候補翻訳が与えられた場合、PEARは品質差の方向と大きさを予測する。
これらの指標は、人間の判断の違いから導かれるペアワイズ・インスペクティブを用いて訓練され、追加の正規化用語は、候補順序逆転の下での符号反転を促進する。
WMT24のメタ評価ベンチマークでは、PEARは、同じデータとバックボーンで訓練された単一候補QEベースラインに厳密に適合し、提案されたペアワイズ定式化の利点を分離する。
最近の大規模メトリクスよりもパラメータが大幅に少ないにもかかわらず、PEARははるかに大きなQEモデルと参照ベースのメトリクスを超越している。
分析の結果,PEARは,他の上位指標と比較して,冗長性の低い評価信号が得られることがわかった。
最後に, PEAR は最小ベイズリスク (MBR) 復号化に有効であることを示す。
関連論文リスト
- Redefining Retrieval Evaluation in the Era of LLMs [20.75884808285362]
従来の情報検索(IR)メトリクスは、人間が下位階級への注意を減らした文書を逐次調査することを前提としている。
この仮定は、Large Language Models (LLM) によって検索結果が消費される検索拡張生成(RAG)システムにおいて破られる。
本稿では,関連するパスの肯定的な寄与と,注意をそらすパスのネガティブな影響の両方を定量化するユーティリティベースのアノテーションスキーマを提案する。
論文 参考訳(メタデータ) (2025-10-24T13:17:00Z) - Don't Sweat the Small Stuff: Segment-Level Meta-Evaluation Based on Pairwise Difference Correlation [6.842448271028217]
Pairwise Different Pearson (PDP)は機械翻訳のための新しいセグメントレベルのメタ評価指標である
以前のPearsonの$rho$ベースとKendallの$tau$ベースのメタ評価アプローチの制限に対処する。
論文 参考訳(メタデータ) (2025-09-29T22:06:50Z) - Reliable Evaluation Protocol for Low-Precision Retrieval [34.65522226937288]
スコア変動を低減するために,より堅牢な検索評価プロトコルを提案する。
本研究は,(1)計算コストを最小に抑えるため最終採点段階を高い精度に引き上げるHPS(High-Precision Scoring),(2)予測スコア,範囲,偏差を報告するTRM(Tie-Aware Retrieval Metrics)から構成される。
論文 参考訳(メタデータ) (2025-08-05T10:27:57Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Improving Statistical Significance in Human Evaluation of Automatic Metrics via Soft Pairwise Accuracy [10.487125740432681]
Pairwise Accuracy(PA)に基づく新しいメタメトリックを提案する。
評価に用いるシステム/セグメント数の変化に対して,SPAはPAよりも安定であることを示す。
SPAは2024 WMT Metrics Shared Taskの公式なシステムレベルメトリクスに選ばれた。
論文 参考訳(メタデータ) (2024-09-15T03:25:55Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価
余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。
本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-05-10T16:27:55Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。