論文の概要: PEAR: Pairwise Evaluation for Automatic Relative Scoring in Machine Translation
- arxiv url: http://arxiv.org/abs/2601.18006v1
- Date: Sun, 25 Jan 2026 21:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.57784
- Title: PEAR: Pairwise Evaluation for Automatic Relative Scoring in Machine Translation
- Title(参考訳): PEAR:機械翻訳における自動相対スコーリングのペアワイズ評価
- Authors: Lorenzo Proietti, Roman Grundkiewicz, Matt Post,
- Abstract要約: PEAR(Pairwise Evaluation for Automatic Relative Scoring)は、基準のない機械翻訳(MT)の評価を段階的に比較する、教師付き品質評価(QE)メトリクスファミリーである。
PEARは最小ベイズリスク(MBR)復号化のための有効なユーティリティ機能であり、無視可能な影響でペアスコアリングコストを低減できることを示す。
- 参考スコア(独自算出の注目度): 7.465816202513257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PEAR (Pairwise Evaluation for Automatic Relative Scoring), a supervised Quality Estimation (QE) metric family that reframes reference-free Machine Translation (MT) evaluation as a graded pairwise comparison. Given a source segment and two candidate translations, PEAR predicts the direction and magnitude of their quality difference. The metrics are trained using pairwise supervision derived from differences in human judgments, with an additional regularization term that encourages sign inversion under candidate order reversal. On the WMT24 meta-evaluation benchmark, PEAR outperforms strictly matched single-candidate QE baselines trained with the same data and backbones, isolating the benefit of the proposed pairwise formulation. Despite using substantially fewer parameters than recent large metrics, PEAR surpasses far larger QE models and reference-based metrics. Our analysis further indicates that PEAR yields a less redundant evaluation signal relative to other top metrics. Finally, we show that PEAR is an effective utility function for Minimum Bayes Risk (MBR) decoding, reducing pairwise scoring cost at negligible impact.
- Abstract(参考訳): PEAR(Pairwise Evaluation for Automatic Relative Scoring)は、基準のない機械翻訳(MT)の評価を段階的に比較した、教師付き品質評価(QE)尺度である。
ソースセグメントと2つの候補翻訳が与えられた場合、PEARは品質差の方向と大きさを予測する。
これらの指標は、人間の判断の違いから導かれるペアワイズ・インスペクティブを用いて訓練され、追加の正規化用語は、候補順序逆転の下での符号反転を促進する。
WMT24のメタ評価ベンチマークでは、PEARは、同じデータとバックボーンで訓練された単一候補QEベースラインに厳密に適合し、提案されたペアワイズ定式化の利点を分離する。
最近の大規模メトリクスよりもパラメータが大幅に少ないにもかかわらず、PEARははるかに大きなQEモデルと参照ベースのメトリクスを超越している。
分析の結果,PEARは,他の上位指標と比較して,冗長性の低い評価信号が得られることがわかった。
最後に, PEAR は最小ベイズリスク (MBR) 復号化に有効であることを示す。
関連論文リスト
- Beyond Correlations: A Downstream Evaluation Framework for Query Performance Prediction [10.378957672522157]
クエリ性能予測(QPP)評価の標準的な実践は、推定された検索品質と真の結果とのセットレベル相関を測定することである。
本稿では、複数のランク付けで検索した上位文書の一覧からQPP推定値の分布をIR融合の先行値として用いる下流焦点評価フレームワークを提案する。
一方、これらの推定値の分布は、真の検索特性と密に一致し、予測器の品質を示す一方で、先行値としての使用は、予測器がIRパイプラインで情報的選択を行う能力を示す。
論文 参考訳(メタデータ) (2026-01-24T06:58:30Z) - Redefining Retrieval Evaluation in the Era of LLMs [20.75884808285362]
従来の情報検索(IR)メトリクスは、人間が下位階級への注意を減らした文書を逐次調査することを前提としている。
この仮定は、Large Language Models (LLM) によって検索結果が消費される検索拡張生成(RAG)システムにおいて破られる。
本稿では,関連するパスの肯定的な寄与と,注意をそらすパスのネガティブな影響の両方を定量化するユーティリティベースのアノテーションスキーマを提案する。
論文 参考訳(メタデータ) (2025-10-24T13:17:00Z) - Don't Sweat the Small Stuff: Segment-Level Meta-Evaluation Based on Pairwise Difference Correlation [6.842448271028217]
Pairwise Different Pearson (PDP)は機械翻訳のための新しいセグメントレベルのメタ評価指標である
以前のPearsonの$rho$ベースとKendallの$tau$ベースのメタ評価アプローチの制限に対処する。
論文 参考訳(メタデータ) (2025-09-29T22:06:50Z) - Reliable Evaluation Protocol for Low-Precision Retrieval [34.65522226937288]
スコア変動を低減するために,より堅牢な検索評価プロトコルを提案する。
本研究は,(1)計算コストを最小に抑えるため最終採点段階を高い精度に引き上げるHPS(High-Precision Scoring),(2)予測スコア,範囲,偏差を報告するTRM(Tie-Aware Retrieval Metrics)から構成される。
論文 参考訳(メタデータ) (2025-08-05T10:27:57Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文 参考訳(メタデータ) (2024-10-07T16:42:10Z) - Improving Statistical Significance in Human Evaluation of Automatic Metrics via Soft Pairwise Accuracy [10.487125740432681]
Pairwise Accuracy(PA)に基づく新しいメタメトリックを提案する。
評価に用いるシステム/セグメント数の変化に対して,SPAはPAよりも安定であることを示す。
SPAは2024 WMT Metrics Shared Taskの公式なシステムレベルメトリクスに選ばれた。
論文 参考訳(メタデータ) (2024-09-15T03:25:55Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価
余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。
本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-05-10T16:27:55Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。