論文の概要: Can We Trust Recommender System Fairness Evaluation? The Role of Fairness and Relevance
- arxiv url: http://arxiv.org/abs/2405.18276v1
- Date: Tue, 28 May 2024 15:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 23:33:16.473884
- Title: Can We Trust Recommender System Fairness Evaluation? The Role of Fairness and Relevance
- Title(参考訳): システムフェアネス評価を信頼できるか? : フェアネスと妥当性の役割
- Authors: Theresia Veronika Rampisela, Tuukka Ruotsalo, Maria Maistro, Christina Lioma,
- Abstract要約: レコメンデーターシステム(RS)の2つの主要な目的と妥当性と公正性
最近の研究は、関連性(フェアネスのみ)から独立したRSフェアネスの尺度や、関連性(ジョイント対策)を条件としたRSフェアネスの尺度を提案している。
RSの妥当性と公正性に関するすべての共同評価尺度を収集し、どのように一致しているかを問う。
実世界の4つのデータセットと4つのレコメンデーションに対して、これらの測定の振る舞いを初めて経験的に研究する。
- 参考スコア(独自算出の注目度): 12.013380880264439
- License:
- Abstract: Relevance and fairness are two major objectives of recommender systems (RSs). Recent work proposes measures of RS fairness that are either independent from relevance (fairness-only) or conditioned on relevance (joint measures). While fairness-only measures have been studied extensively, we look into whether joint measures can be trusted. We collect all joint evaluation measures of RS relevance and fairness, and ask: How much do they agree with each other? To what extent do they agree with relevance/fairness measures? How sensitive are they to changes in rank position, or to increasingly fair and relevant recommendations? We empirically study for the first time the behaviour of these measures across 4 real-world datasets and 4 recommenders. We find that most of these measures: i) correlate weakly with one another and even contradict each other at times; ii) are less sensitive to rank position changes than relevance- and fairness-only measures, meaning that they are less granular than traditional RS measures; and iii) tend to compress scores at the low end of their range, meaning that they are not very expressive. We counter the above limitations with a set of guidelines on the appropriate usage of such measures, i.e., they should be used with caution due to their tendency to contradict each other and of having a very small empirical range.
- Abstract(参考訳): 妥当性と公正性は、推奨システム(RS)の2つの主要な目的である。
近年の研究では、関連性(フェアネスのみ)から独立したRSフェアネスの尺度や、関連性(ジョイント対策)を条件としたRSフェアネスの尺度が提案されている。
公平度のみの尺度は広く研究されているが,共同対策が信頼できるかどうかを考察する。
RSの妥当性と公正性に関するすべての共同評価尺度を収集し、どのように一致しているかを問う。
彼らはどの程度、関連性/公正度対策に合意しますか?
ランク位置の変更や、公正で関連性の高い推奨にどれほど敏感か?
実世界の4つのデータセットと4つのレコメンデーションに対して、これらの測定の振る舞いを初めて経験的に研究する。
これらの指標のほとんどは、以下のとおりである。
一 互いに弱く相関し、時には互いに矛盾すること。
二 関連度及び公正度のみの尺度よりランク位置変化に敏感でないこと、つまり従来のRS尺度より粒度が小さいこと。
三 その範囲の低い端でスコアを圧縮する傾向があるため、あまり表現力がない。
我々は、これらの措置の適切な使用に関する一連のガイドライン、すなわち、互いに矛盾する傾向があり、かつ非常に小さな経験的範囲を持つため、注意を払って使用すべきである。
関連論文リスト
- Standardized Interpretable Fairness Measures for Continuous Risk Scores [4.192037827105842]
本稿では、ワッサーシュタイン距離に基づく合理的な解釈を伴う連続的なスコアに対する公正度尺度の標準化版を提案する。
我々の測度は計算が容易で、グループ格差の強さを定量化し、解釈するのにも適しており、異なるモデル、データセット、タイムポイントのバイアスを比較するのにも適しています。
論文 参考訳(メタデータ) (2023-08-22T12:01:49Z) - Trustworthy Social Bias Measurement [92.87080873893618]
本研究では,測定モデリングの学際的理論に基づいて,信頼を保証できるバイアス尺度を設計する。
我々は5つの具体的なバイアス測定をインスタンス化するために、一般的なバイアス測定フレームワークであるDivDistを提案して、その定義を運用する。
我々は,従来の尺度に存在した概念的,技術的,実証的欠陥を克服し,我々の措置を信頼するかなりの証拠を実証する。
論文 参考訳(メタデータ) (2022-12-20T18:45:12Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Cascaded Debiasing: Studying the Cumulative Effect of Multiple
Fairness-Enhancing Interventions [48.98659895355356]
本稿では機械学習(ML)パイプラインの異なる段階における多重公正強化介入の累積効果について検討する。
複数の介入を適用すると、集約に対する個々の介入よりも公平性と実用性が向上する。
マイナス面として、公平性向上の介入は異なる集団、特に特権集団に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-02-08T09:20:58Z) - On Quantitative Evaluations of Counterfactuals [88.42660013773647]
本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
論文 参考訳(メタデータ) (2021-10-30T05:00:36Z) - On the Choice of Fairness: Finding Representative Fairness Metrics for a
Given Context [5.667221573173013]
フェアネスの様々な概念が定義されているが、適切な計量を選択することは困難である。
トレードオフと不合理な定理により、そのような選択はさらに複雑で議論を呼んでいる。
そこで本稿では,あるコンテキストに対して異なる測度間の相関関係とトレードオフを自動的に検出するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T04:17:38Z) - Gradual (In)Compatibility of Fairness Criteria [0.0]
不合理性の結果は、重要な公正度尺度を合理的な仮定の下で同時に満たすことができないことを示している。
本稿では,これらの公平度対策をある程度同時に達成し,改善できるかどうかを考察する。
論文 参考訳(メタデータ) (2021-09-09T16:37:30Z) - Balancing Accuracy and Fairness for Interactive Recommendation with
Reinforcement Learning [68.25805655688876]
推薦者の公正さは、おそらく伝統的な推薦者によって引き起こされる偏見と差別によって、注目を集めている。
IRSにおける精度と公平性の長期的バランスを動的に維持するための強化学習ベースのフレームワークであるFairRecを提案する。
大規模な実験は、FairRecが優れたレコメンデーション品質を維持しながら、公正性を改善することを実証する。
論文 参考訳(メタデータ) (2021-06-25T02:02:51Z) - Evaluation: from precision, recall and F-measure to ROC, informedness,
markedness and correlation [3.7819322027528113]
Recall、Precision、F-Measure、Rand Accuracyといった尺度はバイアスがあり、バイアスを明確に理解しなければ使用できない。
予測と確率の確率を反映したいくつかの概念と測度について論じる。
論文 参考訳(メタデータ) (2020-10-11T02:15:11Z) - Fairness in machine learning: against false positive rate equality as a
measure of fairness [0.0]
2つの一般的な公正度尺度は、キャリブレーションと偽陽性率の等式である。
私はこれらの措置について考えるための倫理的枠組みを与え、偽陽性率が公正性について何も追跡していないと主張する。
論文 参考訳(メタデータ) (2020-07-06T17:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。