論文の概要: Measuring Disparate Outcomes of Content Recommendation Algorithms with
Distributional Inequality Metrics
- arxiv url: http://arxiv.org/abs/2202.01615v1
- Date: Thu, 3 Feb 2022 14:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 14:44:13.302345
- Title: Measuring Disparate Outcomes of Content Recommendation Algorithms with
Distributional Inequality Metrics
- Title(参考訳): 分布不等式メトリクスを用いたコンテンツレコメンデーションアルゴリズムの異なる結果の測定
- Authors: Tomo Lazovich, Luca Belli, Aaron Gonzales, Amanda Bower, Uthaipon
Tantipongpipat, Kristian Lum, Ferenc Huszar, Rumman Chowdhury
- Abstract要約: 我々は,経済学,分布不平等指標,およびTwitterのアルゴリズム・タイムラインにおけるコンテンツ露出の差異を測定する能力から,一連の指標を評価した。
これらのメトリクスを用いて、ユーザ間の歪んだ結果に強く寄与するコンテンツ提案アルゴリズムを特定できることを示す。
- 参考スコア(独自算出の注目度): 5.74271110290378
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The harmful impacts of algorithmic decision systems have recently come into
focus, with many examples of systems such as machine learning (ML) models
amplifying existing societal biases. Most metrics attempting to quantify
disparities resulting from ML algorithms focus on differences between groups,
dividing users based on demographic identities and comparing model performance
or overall outcomes between these groups. However, in industry settings, such
information is often not available, and inferring these characteristics carries
its own risks and biases. Moreover, typical metrics that focus on a single
classifier's output ignore the complex network of systems that produce outcomes
in real-world settings. In this paper, we evaluate a set of metrics originating
from economics, distributional inequality metrics, and their ability to measure
disparities in content exposure in a production recommendation system, the
Twitter algorithmic timeline. We define desirable criteria for metrics to be
used in an operational setting, specifically by ML practitioners. We
characterize different types of engagement with content on Twitter using these
metrics, and use these results to evaluate the metrics with respect to the
desired criteria. We show that we can use these metrics to identify content
suggestion algorithms that contribute more strongly to skewed outcomes between
users. Overall, we conclude that these metrics can be useful tools for
understanding disparate outcomes in online social networks.
- Abstract(参考訳): アルゴリズム決定システムの有害な影響は最近注目されており、機械学習(ML)モデルのような多くのシステムの例は、既存の社会的バイアスを増幅している。
MLアルゴリズムから生じる格差を定量化しようとするほとんどの指標は、グループ間の差異に焦点を当て、人口密度に基づいてユーザーを分割し、モデルの性能やグループ間の全体的な結果を比較する。
しかし、業界ではそのような情報は利用できないことが多く、これらの特徴を推測することは独自のリスクとバイアスをもたらす。
さらに、単一の分類器の出力にフォーカスする典型的なメトリクスは、現実世界の設定で結果を生み出すシステムの複雑なネットワークを無視します。
本稿では, 生産推薦システム, Twitter のアルゴリズム・タイムラインにおいて, 経済, 流通不平等指標, および, コンテンツの露出の差異を測定する能力から得られた指標の集合を評価する。
我々は、特にML実践者が運用環境で使用するメトリクスの望ましい基準を定義します。
これらの指標を用いて、twitter上のコンテンツに対するさまざまなタイプのエンゲージメントを特徴付け、これらの結果を用いて、望ましい基準に対するメトリクスを評価する。
これらのメトリクスを用いて、ユーザ間の歪んだ結果に強く寄与するコンテンツ提案アルゴリズムを特定できることを示す。
全体として、これらの指標は、オンラインソーシャルネットワークにおける異なる結果を理解するのに有用なツールであると結論づける。
関連論文リスト
- Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
顔認識システムの運用評価に焦点をあて,適用する。
論文 参考訳(メタデータ) (2024-09-03T14:19:38Z) - Leveraging a Cognitive Model to Measure Subjective Similarity of Human and GPT-4 Written Content [26.409490082213445]
GPT-4のような大規模言語モデル(LLM)によって形成されたトークン埋め込みを用いて、2つの文書間のコサイン類似性を計算することができる。
この類似度尺度は、個人のバイアスと制約を、意思決定の認知メカニズムに根ざした方法で考慮するという点で有益である。
このデータセットは、認知モデルを利用して、教育環境での人間の被験者の主観的類似度を測定する利点を示すために使用される。
論文 参考訳(メタデータ) (2024-08-30T21:54:13Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Truthful Meta-Explanations for Local Interpretability of Machine
Learning Models [10.342433824178825]
本稿では,忠実度に基づく計量である真理度測定に基づいて,局所的メタ説明手法を提案する。
本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。
論文 参考訳(メタデータ) (2022-12-07T08:32:04Z) - Analysis and Comparison of Classification Metrics [12.092755413404245]
システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクが含まれる。
これらの測定値を用いてシステムのキャリブレーション損失を計算し、この測定値を広く使用されている予測キャリブレーション誤差(ECE)と比較する。
論文 参考訳(メタデータ) (2022-09-12T16:06:10Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Estimation of Fair Ranking Metrics with Incomplete Judgments [70.37717864975387]
本研究では,4つの評価指標のサンプリング手法と推定手法を提案する。
ラベル付きアイテムの数が極めて少ない場合でも動作可能な頑健で偏りのない推定器を定式化する。
論文 参考訳(メタデータ) (2021-08-11T10:57:00Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Online Learning Demands in Max-min Fairness [91.37280766977923]
本稿では,複数のユーザ間の希少リソースの割り当て機構について,効率的で公平で戦略に準拠した方法で記述する。
このメカニズムは複数のラウンドで繰り返され、各ラウンドでユーザの要求が変更される可能性がある。
各ラウンドの最後には、ユーザは受け取ったアロケーションに関するフィードバックを提供し、そのメカニズムが時間の経過とともにユーザの好みを学習することを可能にする。
論文 参考訳(メタデータ) (2020-12-15T22:15:20Z) - Interpretable Assessment of Fairness During Model Evaluation [1.2183405753834562]
本稿では,階層的クラスタリングアルゴリズムを導入し,各サブ集団におけるユーザ間の不均一性を検出する。
本稿では,LinkedInの実際のデータに対して,アルゴリズムの性能を示す。
論文 参考訳(メタデータ) (2020-10-26T02:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。