論文の概要: What Is the Optimal Ranking Score Between Precision and Recall? We Can Always Find It and It Is Rarely $F_1$
- arxiv url: http://arxiv.org/abs/2511.22442v1
- Date: Thu, 27 Nov 2025 13:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.581492
- Title: What Is the Optimal Ranking Score Between Precision and Recall? We Can Always Find It and It Is Rarely $F_1$
- Title(参考訳): 精度とリコールの間に最適なランク付けスコアは何か? 常に見つけられるし、F_1$も高い
- Authors: Sébastien Piérard, Adrien Deliège, Marc Van Droogenbroeck,
- Abstract要約: F_$誘導ランキングは有意義であり、精度とリコール誘導ランキングの間の最短経路を定義する。
我々は,任意の分布や性能に対して$$の最適値を求めるために,理論ツールとクローズドフォーム式を提供する。
- 参考スコア(独自算出の注目度): 17.215680052668244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ranking methods or models based on their performance is of prime importance but is tricky because performance is fundamentally multidimensional. In the case of classification, precision and recall are scores with probabilistic interpretations that are both important to consider and complementary. The rankings induced by these two scores are often in partial contradiction. In practice, therefore, it is extremely useful to establish a compromise between the two views to obtain a single, global ranking. Over the last fifty years or so,it has been proposed to take a weighted harmonic mean, known as the F-score, F-measure, or $F_β$. Generally speaking, by averaging basic scores, we obtain a score that is intermediate in terms of values. However, there is no guarantee that these scores lead to meaningful rankings and no guarantee that the rankings are good tradeoffs between these base scores. Given the ubiquity of $F_β$ scores in the literature, some clarification is in order. Concretely: (1) We establish that $F_β$-induced rankings are meaningful and define a shortest path between precision- and recall-induced rankings. (2) We frame the problem of finding a tradeoff between two scores as an optimization problem expressed with Kendall rank correlations. We show that $F_1$ and its skew-insensitive version are far from being optimal in that regard. (3) We provide theoretical tools and a closed-form expression to find the optimal value for $β$ for any distribution or set of performances, and we illustrate their use on six case studies.
- Abstract(参考訳): 性能に基づくランク付け手法やモデルは非常に重要であるが、性能は基本的に多次元であるため難しい。
分類の場合、精度とリコールは、考慮と補完の両方が重要である確率論的解釈を伴うスコアである。
これらの2つのスコアによって引き起こされるランクは、しばしば部分的に矛盾する。
したがって、実際には、この2つの見解の妥協を確立して、単一のグローバルなランキングを得るのは非常に有用である。
過去50年ほどで、Fスコア、F尺度、またはF_β$と呼ばれる重み付き調和平均を取ることが提案されている。
一般に、基本的なスコアを平均化することで、値の中間的なスコアを得る。
しかし、これらのスコアが有意義なランキングにつながるという保証はなく、これらのスコア間の良いトレードオフである保証もない。
文献でF_β$スコアが多用されていることから、いくつかの明確化が整っている。
具体的には,(1)$F_β$誘導ランキングは有意義であり,精度とリコール誘導ランキングの間の最短経路を定義する。
2) 2つのスコア間のトレードオフを、Kendallランク相関で表される最適化問題として求める。
我々は、$F_1$とそのスキュー非感受性バージョンが、その点において最適ではないことを示す。
(3) 理論ツールと閉形式表現を用いて,任意の分布や性能に対して$β$の最適値を求める。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Standardization of Weighted Ranking Correlation Coefficients [0.06526824510982801]
統計学における関連する問題は、項目のリストの2つのランキングの相関を定義することである。
相関ランキング係数を標準形式にマッピングする標準関数 $g(x)$ を、期待値がゼロの $g(Gamma)$ として提案する。
論文 参考訳(メタデータ) (2025-04-11T10:37:19Z) - Transductive Conformal Inference for Full Ranking [8.050897403457995]
完全ランク付けアルゴリズムの不確かさを定量化するために,コンフォーマル予測(CP)に基づく手法を提案する。
我々は、$n+m$アイテムがブラックボックスのアルゴリズムによってランク付けされる特定のシナリオに焦点を当てる。
論文 参考訳(メタデータ) (2025-01-20T10:24:33Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Improved theoretical guarantee for rank aggregation via spectral method [1.0152838128195467]
複数の項目間のペアワイズ比較を与えられた場合、ランキングが観測値と一致するようにランク付けする方法?
ランクアグリゲーションとして知られるこの問題は、スポーツ、レコメンデーションシステム、その他のウェブアプリケーションに多くの応用を見出している。
ここで、各ペア比較は真のスコア差の破損したコピーである。
論文 参考訳(メタデータ) (2023-09-07T16:01:47Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - Pointwise Binary Classification with Pairwise Confidence Comparisons [97.79518780631457]
ペアワイズ比較(Pcomp)分類を提案し、ラベルのないデータのペアしか持たない。
我々はPcomp分類をノイズラベル学習に結びつけて、進歩的UREを開発し、一貫性の正則化を課すことにより改善する。
論文 参考訳(メタデータ) (2020-10-05T09:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。