論文の概要: Comparative Separation: Evaluating Separation on Comparative Judgment Test Data
- arxiv url: http://arxiv.org/abs/2601.06761v1
- Date: Sun, 11 Jan 2026 03:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.969563
- Title: Comparative Separation: Evaluating Separation on Comparative Judgment Test Data
- Title(参考訳): 比較分離:比較判断テストデータにおける分離の評価
- Authors: Xiaoyin Xi, Neeku Capak, Kate Stockwell, Zhe Yu,
- Abstract要約: この研究は、ソフトウェア工学社会の利益を、比較分離の提案によって求めている。
二項分類問題では、比較分離は分離と同値であることが示される。
- 参考スコア(独自算出の注目度): 1.9729979239580642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research seeks to benefit the software engineering society by proposing comparative separation, a novel group fairness notion to evaluate the fairness of machine learning software on comparative judgment test data. Fairness issues have attracted increasing attention since machine learning software is increasingly used for high-stakes and high-risk decisions. It is the responsibility of all software developers to make their software accountable by ensuring that the machine learning software do not perform differently on different sensitive groups -- satisfying the separation criterion. However, evaluation of separation requires ground truth labels for each test data point. This motivates our work on analyzing whether separation can be evaluated on comparative judgment test data. Instead of asking humans to provide the ratings or categorical labels on each test data point, comparative judgments are made between pairs of data points such as A is better than B. According to the law of comparative judgment, providing such comparative judgments yields a lower cognitive burden for humans than providing ratings or categorical labels. This work first defines the novel fairness notion comparative separation on comparative judgment test data, and the metrics to evaluate comparative separation. Then, both theoretically and empirically, we show that in binary classification problems, comparative separation is equivalent to separation. Lastly, we analyze the number of test data points and test data pairs required to achieve the same level of statistical power in the evaluation of separation and comparative separation, respectively. This work is the first to explore fairness evaluation on comparative judgment test data. It shows the feasibility and the practical benefits of using comparative judgment test data for model evaluations.
- Abstract(参考訳): 本研究は、比較判定テストデータに基づく機械学習ソフトウェアの公平性を評価するためのグループフェアネスの概念である、比較分離を提案することにより、ソフトウェア工学社会に利益をもたらすことを目的としている。
機械学習ソフトウェアがハイテイクやハイリスクな判断にますます使われているため、公平性の問題が注目を集めている。
分離基準を満たすのは、機械学習ソフトウェアが異なるセンシティブなグループで異なるパフォーマンスをしないよう保証することで、すべてのソフトウェア開発者がソフトウェアを説明責任を負う責任である。
しかし, 分離の評価には, それぞれの試験データ点について, 真理ラベルが必要である。
このことは、比較判定テストデータで分離を評価できるかどうかを分析するために、我々の研究を動機付けている。
比較判断の法則によれば、比較判断を提供することは、評価や分類ラベルよりも人間の認知的負担を低くする。
この研究はまず、比較判定テストデータにおける比較公平性の概念と、比較公平性を評価する指標を定義した。
そして、理論的にも経験的にも、二項分類問題において、比較分離は分離と同値であることを示す。
最後に、分離と比較分離の評価において、同じレベルの統計的パワーを達成するために必要なテストデータポイントとテストデータペアの数を分析する。
この研究は、比較判定テストデータにおける公平性評価を初めて検討したものである。
モデル評価における比較判定テストデータの有用性と実用性を示す。
関連論文リスト
- Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness [49.35494016290887]
関係する人口を表わすが、実世界の格差を反映するデータである場合、サブグループ間での平等なパフォーマンスは、信頼できない公平さの尺度であることを示す。
本フレームワークでは, 因果関係の明示的な仮定と分析を相補して, 相反や分布変化の制御を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:40:31Z) - Whence Is A Model Fair? Fixing Fairness Bugs via Propensity Score Matching [0.49157446832511503]
サンプルデータのトレーニングやテストの方法がフェアネス指標の信頼性に影響を及ぼすかどうかを検討する。
トレーニングデータとテストセットは、しばしば同じ集団からランダムにサンプリングされるため、トレーニングデータに存在するバイアスは、テストデータにまだ存在する可能性がある。
偏見の評価と緩和に適合性スコアマッチングを適用した後処理法であるFairMatchを提案する。
論文 参考訳(メタデータ) (2025-04-23T19:28:30Z) - Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons [10.94304714004328]
本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。
個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
論文 参考訳(メタデータ) (2024-05-09T16:45:27Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - Leveraging Human Feedback to Scale Educational Datasets: Combining
Crowdworkers and Comparative Judgement [0.0]
本稿では,非専門的なクラウドワーカーを用いた2つの実験と,学生データ評価のための比較判断について報告する。
比較判定を用いることで,両タスク間の信頼性が大幅に向上することが判明した。
論文 参考訳(メタデータ) (2023-05-22T10:22:14Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。