論文の概要: Don't Sweat the Small Stuff: Segment-Level Meta-Evaluation Based on Pairwise Difference Correlation
- arxiv url: http://arxiv.org/abs/2509.25546v1
- Date: Mon, 29 Sep 2025 22:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.950162
- Title: Don't Sweat the Small Stuff: Segment-Level Meta-Evaluation Based on Pairwise Difference Correlation
- Title(参考訳): 小さめを甘くしない: ペアワイズ差分法によるセグメンションレベルメタ評価
- Authors: Colten DiIanni, Daniel Deutsch,
- Abstract要約: Pairwise Different Pearson (PDP)は機械翻訳のための新しいセグメントレベルのメタ評価指標である
以前のPearsonの$rho$ベースとKendallの$tau$ベースのメタ評価アプローチの制限に対処する。
- 参考スコア(独自算出の注目度): 6.842448271028217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Pairwise Difference Pearson (PDP), a novel segment-level meta-evaluation metric for Machine Translation (MT) that address limitations in previous Pearson's $\rho$-based and and Kendall's $\tau$-based meta-evaluation approaches. PDP is a correlation-based metric that utilizes pairwise differences rather than raw scores. It draws on information from all segments for a more robust understanding of score distributions and uses segment-wise pairwise differences to refine Global Pearson to intra-segment score comparisons. Analysis on the WMT'24 shared task shows PDP properly ranks sentinel evaluation metrics and better aligns with human error weightings than previous work. Noise injection analysis demonstrates PDP's robustness to random noise, segment bias, and system bias while highlighting its sensitivity to extreme outliers.
- Abstract(参考訳): 本稿では,従来のPearsonの$\rho$ベースとKendallの$\tau$ベースメタ評価アプローチの制約に対処する,機械翻訳(MT)のための新しいセグメントレベルメタ評価指標であるPairwise Difference Pearson(PDP)を紹介する。
PDPは相関に基づく計量であり、生のスコアではなくペアの差を利用する。
スコア分布のより堅牢な理解のために、すべてのセグメントからの情報を描画し、Global Pearsonをセグメンツ内スコア比較に洗練するために、セグメンテーションのペアワイズ差を使用する。
WMT'24共有タスクの分析は、PDPがセンチネル評価指標を適切にランク付けし、以前の作業よりも人間のエラー重み付けと整合していることを示している。
ノイズインジェクション分析は、PDPのランダムノイズ、セグメントバイアス、システムバイアスに対する堅牢性を示し、極端外れ値に対する感度を強調している。
関連論文リスト
- SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds [0.0]
フレキシブルかつ解釈可能なインスタンスセグメンテーションメトリックであるSoftPQを提案する。
我々は、既存のメトリクスが見落としているセグメンテーション品質の有意義な違いをSoftPQが捉えていることを示す。
論文 参考訳(メタデータ) (2025-05-17T22:08:33Z) - Principal Component Analysis When n < p: Challenges and Solutions [0.0]
主成分分析は高次元データの複雑さを軽減するための重要な手法である。
標準主成分分析は高次元シナリオにおける次元還元手法として不十分に機能する。
本稿では,ペア差分共分散推定と呼ばれる新しい推定法を提案する。
論文 参考訳(メタデータ) (2025-03-21T22:33:52Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Bayesian Prediction-Powered Inference [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
本稿では,ベイズ推定に基づくPPIのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-09T18:08:58Z) - FP-Diffusion: Improving Score-based Diffusion Models by Enforcing the
Underlying Score Fokker-Planck Equation [72.19198763459448]
雑音が増大する傾向にあるデータ密度に対応する雑音条件スコア関数の族を学習する。
これらの摂動データ密度は、密度の時空間進化を管理する偏微分方程式(PDE)であるフォッカー・プランク方程式(Fokker-Planck equation, FPE)によって結合される。
我々は、摂動データ密度の雑音条件スコアを特徴付けるスコアFPEと呼ばれる対応する方程式を導出する。
論文 参考訳(メタデータ) (2022-10-09T16:27:25Z) - Revisiting AP Loss for Dense Object Detection: Adaptive Ranking Pair
Selection [19.940491797959407]
本研究では, 平均精度 (AP) の損失を再考し, その重要な要素は, 正試料と負試料のランキングペアを選択することであることを明らかにした。
本稿では,AP損失を改善するための2つの方法を提案する。第1に,APE(Adaptive Pairwise Error)損失は,正と負の両方のサンプルにおいて,ペアのランク付けに重点を置いている。
MSCOCOデータセットで行った実験は、現在の分類とランキングの損失と比較して、提案手法の優位性を実証し、分析を支援した。
論文 参考訳(メタデータ) (2022-07-25T10:33:06Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。