論文の概要: Towards Multi-Stakeholder Evaluation of ML Models: A Crowdsourcing Study on Metric Preferences in Job-matching System
- arxiv url: http://arxiv.org/abs/2503.05796v1
- Date: Mon, 03 Mar 2025 04:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 07:11:43.578243
- Title: Towards Multi-Stakeholder Evaluation of ML Models: A Crowdsourcing Study on Metric Preferences in Job-matching System
- Title(参考訳): MLモデルのマルチステークホルダー評価に向けて:ジョブマッチングシステムにおけるメトリクスの選好に関するクラウドソーシング研究
- Authors: Takuya Yokota, Yuri Nakao,
- Abstract要約: 機械学習技術は多様な利害関係者に影響を与える。
アウトプットの質を評価するのに一大の指標は存在しない。
クラウドソーシングを用いて,参加者の異なる指標に対する嗜好について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: While machine learning (ML) technology affects diverse stakeholders, there is no one-size-fits-all metric to evaluate the quality of outputs, including performance and fairness. Using predetermined metrics without soliciting stakeholder opinions is problematic because it leads to an unfair disregard for stakeholders in the ML pipeline. In this study, to establish practical ways to incorporate diverse stakeholder opinions into the selection of metrics for ML, we investigate participants' preferences for different metrics by using crowdsourcing. We ask 837 participants to choose a better model from two hypothetical ML models in a hypothetical job-matching system twenty times and calculate their utility values for seven metrics. To examine the participants' feedback in detail, we divide them into five clusters based on their utility values and analyze the tendencies of each cluster, including their preferences for metrics and common attributes. Based on the results, we discuss the points that should be considered when selecting appropriate metrics and evaluating ML models with multiple stakeholders.
- Abstract(参考訳): 機械学習(ML)技術は様々な利害関係者に影響を与えるが、パフォーマンスや公平性など、アウトプットの品質を評価するのに適した指標は存在しない。
利害関係者のMLパイプラインに対する不公平な軽視につながるため、利害関係者の意見を求めることなく、所定の指標を使用することは問題となる。
本研究では,さまざまな利害関係者の意見をMLのメトリクス選択に組み込むための実践的方法を確立するために,クラウドソーシングを用いて参加者の異なるメトリクスに対する選好について検討する。
我々は837人の参加者に対して,仮説的なジョブマッチングシステムにおいて,2つのMLモデルからよりよいモデルを選択し,その有効値を7つの指標で20回算出する。
参加者のフィードバックを詳細に検討するため,有効値に基づいて5つのクラスタに分割し,各クラスタの傾向を分析した。
結果に基づいて、適切なメトリクスを選択し、複数の利害関係者でMLモデルを評価する際に考慮すべき点について議論する。
関連論文リスト
- How to Choose a Threshold for an Evaluation Metric for Large Language Models [0.9423257767158634]
本稿では,与えられた大規模言語モデル(LLM)評価指標のしきい値を選択するためのステップバイステップのレシピを提案する。
次に,得られたLLM評価基準のしきい値を決定するための,具体的かつ統計的に厳密な手順を提案する。
論文 参考訳(メタデータ) (2024-12-10T21:57:25Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Improved Diversity-Promoting Collaborative Metric Learning for Recommendation [127.08043409083687]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:44:48Z) - A User-Centric Benchmark for Evaluating Large Language Models [39.538411572029005]
大きな言語モデル(LLM)は、異なるタスクでユーザと協調するために必要なツールである。
実際のユーザによるLLMの利用を意図したベンチマークはほとんどない。
ユーザニーズを満たす上での有効性について10のLCMサービスをベンチマークする。
論文 参考訳(メタデータ) (2024-04-22T07:32:03Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - The Minority Matters: A Diversity-Promoting Collaborative Metric
Learning Algorithm [154.47590401735323]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:02:18Z) - Measuring Disparate Outcomes of Content Recommendation Algorithms with
Distributional Inequality Metrics [5.74271110290378]
我々は,経済学,分布不平等指標,およびTwitterのアルゴリズム・タイムラインにおけるコンテンツ露出の差異を測定する能力から,一連の指標を評価した。
これらのメトリクスを用いて、ユーザ間の歪んだ結果に強く寄与するコンテンツ提案アルゴリズムを特定できることを示す。
論文 参考訳(メタデータ) (2022-02-03T14:41:39Z) - Addressing multiple metrics of group fairness in data-driven decision
making [2.750586731051391]
FAT-ML文献は、社会デミノグラフィーグループに対する差別を測定するために、様々なグループの公正度尺度を提案する。
これらのメトリクスのいくつかは、同じグループと機械学習メソッドのために、2つまたは3つの主要なクラスタにまとめられていることを観察する。
グループフェアネス指標の主成分分析(PCA)を用いて,2次元の多次元フェアネスを可視化する頑健な手法を提案する。
論文 参考訳(メタデータ) (2020-03-10T15:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。