論文の概要: Pessimistic Evaluation
- arxiv url: http://arxiv.org/abs/2410.13680v1
- Date: Thu, 17 Oct 2024 15:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 13:03:21.135916
- Title: Pessimistic Evaluation
- Title(参考訳): 悲観的評価
- Authors: Fernando Diaz,
- Abstract要約: 情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。
我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
- 参考スコア(独自算出の注目度): 58.736490198613154
- License:
- Abstract: Traditional evaluation of information access systems has focused primarily on average utility across a set of information needs (information retrieval) or users (recommender systems). In this work, we argue that evaluating only with average metric measurements assumes utilitarian values not aligned with traditions of information access based on equal access. We advocate for pessimistic evaluation of information access systems focusing on worst case utility. These methods are (a) grounded in ethical and pragmatic concepts, (b) theoretically complementary to existing robustness and fairness methods, and (c) empirically validated across a set of retrieval and recommendation tasks. These results suggest that pessimistic evaluation should be included in existing experimentation processes to better understand the behavior of systems, especially when concerned with principles of social good.
- Abstract(参考訳): 情報アクセスシステムの従来の評価は、情報要求(情報検索)やユーザ(レコメンダシステム)の集合にまたがる平均的なユーティリティに焦点を当ててきた。
本研究では,平均測定値のみを用いて評価することで,情報アクセスの伝統に沿わない実用的価値を仮定する。
我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
これらの方法
a) 倫理的・実践的な概念に基づく
b) 理論上、既存の堅牢性と公正性を補完する、及び
(c) 検索と推薦の一連のタスクを経験的に検証する。
これらの結果は、特に社会善の原則に関して、システムの振る舞いをよりよく理解するために、既存の実験プロセスに悲観的評価を含めるべきであることを示唆している。
関連論文リスト
- How fair are we? From conceptualization to automated assessment of fairness definitions [6.741000368514124]
MODNESSは、ソフトウェアシステムにおけるユーザ定義公正の概念に対するモデル駆動のアプローチである。
これらのカスタム定義に基づいて公平なアセスメントを実装するためにソースコードを生成する。
その結果、現在のアプローチのほとんどは、ユーザ定義の公平性の概念をサポートしていないことが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T16:46:17Z) - A Survey on Fairness-aware Recommender Systems [59.23208133653637]
本稿では,様々なレコメンデーションシナリオにおいてフェアネスの概念を提示し,現在の進歩を包括的に分類し,レコメンデーションシステムのさまざまな段階におけるフェアネスを促進するための典型的な手法を紹介する。
次に、フェアネスを意識したレコメンデーションシステムが実業界における産業応用に与える影響について検討する。
論文 参考訳(メタデータ) (2023-06-01T07:08:22Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - Experiments on Generalizability of User-Oriented Fairness in Recommender
Systems [2.0932879442844476]
公正を意識した推薦システムは、異なるユーザーグループを同様に扱うことを目的としている。
本稿では,ユーザ中心の公平度を再評価するフレームワークを提案する。
我々は、ユーザ(NDCGなど)とアイテム(新規性、アイテムフェアネスなど)の両方から、フレームワークの再ランク付けによる最終的なレコメンデーションを評価する。
論文 参考訳(メタデータ) (2022-05-17T12:36:30Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。
本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。
実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文 参考訳(メタデータ) (2021-09-13T15:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。