論文の概要: Synthetic CVs To Build and Test Fairness-Aware Hiring Tools
- arxiv url: http://arxiv.org/abs/2508.21179v1
- Date: Thu, 28 Aug 2025 19:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.860961
- Title: Synthetic CVs To Build and Test Fairness-Aware Hiring Tools
- Title(参考訳): 合成CVがフェアネスを意識した採用ツールの構築とテストに役立てる
- Authors: Jorge Saldivar, Anna Gatzioura, Carlos Castillo,
- Abstract要約: 本稿では,データ提供キャンペーンを通じて収集した実材料をモデルとしたCVの合成データセット構築手法を提案する。
得られた1,730個のCVのデータセットを提示し、アルゴリズムによる雇用差別の研究のための潜在的なベンチマーク標準として想定する。
- 参考スコア(独自算出の注目度): 2.558250634293445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithmic hiring has become increasingly necessary in some sectors as it promises to deal with hundreds or even thousands of applicants. At the heart of these systems are algorithms designed to retrieve and rank candidate profiles, which are usually represented by Curricula Vitae (CVs). Research has shown, however, that such technologies can inadvertently introduce bias, leading to discrimination based on factors such as candidates' age, gender, or national origin. Developing methods to measure, mitigate, and explain bias in algorithmic hiring, as well as to evaluate and compare fairness techniques before deployment, requires sets of CVs that reflect the characteristics of people from diverse backgrounds. However, datasets of these characteristics that can be used to conduct this research do not exist. To address this limitation, this paper introduces an approach for building a synthetic dataset of CVs with features modeled on real materials collected through a data donation campaign. Additionally, the resulting dataset of 1,730 CVs is presented, which we envision as a potential benchmarking standard for research on algorithmic hiring discrimination.
- Abstract(参考訳): アルゴリズムの採用は、数百人から数千人の応募者を扱うことを約束する一部のセクターでますます必要になっている。
これらのシステムの中心にあるのは、候補プロファイルを検索してランク付けするアルゴリズムで、通常はCurricula Vitae (CV) で表される。
しかし、このような技術は必然的に偏見を生じさせ、候補者の年齢、性別、民族起源などの要因に基づく差別につながることが研究で示されている。
アルゴリズム採用におけるバイアスの測定、緩和、説明方法の開発、および展開前の公正性技術の評価と比較には、多様な背景を持つ人々の特性を反映したCVセットが必要である。
しかし、これらの特徴のデータセットは、この研究を行うのに使用できるものではない。
この制限に対処するため,本研究では,データ提供キャンペーンを通じて収集した実材料をモデルとしたCVの合成データセットを構築するためのアプローチを提案する。
さらに、1,730個のCVのデータセットを提示し、アルゴリズムによる雇用差別の研究のための潜在的なベンチマーク標準として想定する。
関連論文リスト
- Underrepresentation, Label Bias, and Proxies: Towards Data Bias Profiles for the EU AI Act and Beyond [42.710392315326104]
我々は3つの共通のデータバイアスを示し、アルゴリズムの識別に対する個人的および共同的な影響について研究する。
我々は、特定の種類のバイアスを検出するための専用メカニズムを開発し、それをデータバイアスプロファイル(DBP)と呼ぶ予備構造に組み合わせる。
この初期定式化は、どのように異なるバイアス信号が体系的に文書化されるかという概念の証明となる。
論文 参考訳(メタデータ) (2025-07-09T15:52:11Z) - Study of the influence of a biased database on the prediction of standard algorithms for selecting the best candidate for an interview [0.4241054493737716]
外部(差別)と内部バイアス(自己検閲)を模倣するデータを生成する
ファイルの匿名化が予測品質に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-05T12:24:31Z) - A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment [76.04306818209753]
実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-10T16:00:41Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [70.45113777449373]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
既存のアルゴリズムを比較し、より良いアルゴリズムを開発する上で重要な課題は、公開された金標準データの欠如である。
研究コミュニティにリリースした類似度スコアの新しいデータセットを収集します。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Demographic-Reliant Algorithmic Fairness: Characterizing the Risks of
Demographic Data Collection in the Pursuit of Fairness [0.0]
我々は、アルゴリズムの公正性を実現するために、人口統計に関するより多くのデータを集めることを検討する。
これらの技術は、データガバナンスとシステム抑圧に関するより広範な疑問を、いかに無視するかを示す。
論文 参考訳(メタデータ) (2022-04-18T04:50:09Z) - Representation Bias in Data: A Survey on Identification and Resolution
Techniques [26.142021257838564]
データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
論文 参考訳(メタデータ) (2022-03-22T16:30:22Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。