論文の概要: Foundations of the Theory of Performance-Based Ranking
- arxiv url: http://arxiv.org/abs/2412.04227v1
- Date: Thu, 05 Dec 2024 15:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:41.262343
- Title: Foundations of the Theory of Performance-Based Ranking
- Title(参考訳): パフォーマンスに基づくランク付け理論の基礎
- Authors: Sébastien Piérard, Anaïs Halin, Anthony Cioppa, Adrien Deliège, Marc Van Droogenbroeck,
- Abstract要約: 本稿では,パフォーマンスに基づくランク付けのための普遍理論の基礎を確立する。
確率理論と順序理論の両方の上に構築された厳密な枠組みを導入する。
2クラス分類の場合、ランキングスコアのファミリーは、よく知られたパフォーマンススコアを含んでいることを示す。
- 参考スコア(独自算出の注目度): 10.89980029564174
- License:
- Abstract: Ranking entities such as algorithms, devices, methods, or models based on their performances, while accounting for application-specific preferences, is a challenge. To address this challenge, we establish the foundations of a universal theory for performance-based ranking. First, we introduce a rigorous framework built on top of both the probability and order theories. Our new framework encompasses the elements necessary to (1) manipulate performances as mathematical objects, (2) express which performances are worse than or equivalent to others, (3) model tasks through a variable called satisfaction, (4) consider properties of the evaluation, (5) define scores, and (6) specify application-specific preferences through a variable called importance. On top of this framework, we propose the first axiomatic definition of performance orderings and performance-based rankings. Then, we introduce a universal parametric family of scores, called ranking scores, that can be used to establish rankings satisfying our axioms, while considering application-specific preferences. Finally, we show, in the case of two-class classification, that the family of ranking scores encompasses well-known performance scores, including the accuracy, the true positive rate (recall, sensitivity), the true negative rate (specificity), the positive predictive value (precision), and F1. However, we also show that some other scores commonly used to compare classifiers are unsuitable to derive performance orderings satisfying the axioms. Therefore, this paper provides the computer vision and machine learning communities with a rigorous framework for evaluating and ranking entities.
- Abstract(参考訳): アルゴリズム、デバイス、メソッド、またはそれらのパフォーマンスに基づいたモデルなどのエンティティのランク付けは、アプリケーション固有の好みを考慮に入れながら、課題である。
この課題に対処するため,性能に基づくランク付けのための普遍理論の基礎を確立する。
まず、確率理論と順序理論の両方の上に構築された厳密な枠組みを導入する。
我々の新しいフレームワークは、(1)パフォーマンスを数学的対象として操作するために必要な要素、(2)パフォーマンスが他よりも悪いか同等かを表現すること、(3)満足度と呼ばれる変数によるモデルタスク、(4)評価の特性を考慮すること、(5)スコアを定義すること、(6)重要度と呼ばれる変数によるアプリケーション固有の好みを指定することを含む。
本フレームワークでは,パフォーマンスオーダリングとパフォーマンスベースランキングの最初の公理的定義を提案する。
そして、アプリケーション固有の選好を考慮しつつ、私たちの公理を満たすランクを確立するために使用できるランキングスコアと呼ばれる、普遍的なパラメトリックスコア群を導入する。
最後に,2クラス分類の場合,評価スコアの家系は,精度,真の正率(リコール,感度),真の負率(特異性),正の予測値(精度),F1など,よく知られたパフォーマンススコアを含むことを示す。
しかし、分類器を比較するのによく使われる他のスコアは、公理を満たす性能順序を導出するのに不適であることも示している。
そこで本稿では,コンピュータビジョンと機械学習のコミュニティに,エンティティの評価とランキングのための厳格な枠組みを提供する。
関連論文リスト
- Replace Scoring with Arrangement: A Contextual Set-to-Arrangement
Framework for Learning-to-Rank [40.81502990315285]
ラーニング・トゥ・ランク(Learning-to-rank)は、トップNレコメンデーションタスクの中核的なテクニックであり、理想的なランク付けはアイテムからアレンジへのマッピングである。
既存のソリューションのほとんどは確率的ランキング原理(PRP)のパラダイムに該当する。すなわち、まず候補セットで各項目をスコアし、次にソート操作を行い、トップランキングリストを生成する。
本稿では,個別のスコアリングやソートを必要とせずに,候補項目の順列を直接生成する新しいフレームワークであるSet-To-Arrangement Ranking (STARank)を提案する。
論文 参考訳(メタデータ) (2023-08-05T12:22:26Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Learning to Rank when Grades Matter [11.981942948477236]
グレードラベルは、現実世界の学習 to ランクのアプリケーションではユビキタスである。
従来の学習からランクまでの技術は、実際の成績を予測することを無視する。
ランクとグレードの予測を協調的に最適化する多目的定式化を提案する。
論文 参考訳(メタデータ) (2023-06-14T17:30:02Z) - Learning List-Level Domain-Invariant Representations for Ranking [59.3544317373004]
リストレベルのアライメント -- より高いレベルのリストでドメイン不変表現を学習する。
利点は2つある: これは、ランク付けに縛られる最初のドメイン適応の一般化をもたらし、その結果、提案法に対する理論的支援を提供する。
論文 参考訳(メタデータ) (2022-12-21T04:49:55Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Does the Objective Matter? Comparing Training Objectives for Pronoun
Resolution [52.94024891473669]
目的の4つのカテゴリを表す4つのモデルのパフォーマンスとシードの安定性を比較した。
提案実験により, 順序付けの目的がドメイン内最良であるのに対して, 候補と代名詞間の意味的類似性はドメイン内最良であることがわかった。
論文 参考訳(メタデータ) (2020-10-06T09:29:51Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。