論文の概要: External Stability Auditing to Test the Validity of Personality
Prediction in AI Hiring
- arxiv url: http://arxiv.org/abs/2201.09151v1
- Date: Sun, 23 Jan 2022 00:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 03:05:33.149068
- Title: External Stability Auditing to Test the Validity of Personality
Prediction in AI Hiring
- Title(参考訳): ai採用におけるパーソナリティ予測の有効性検証のための外部安定性監査
- Authors: Alene K. Rhea, Kelsey Markey, Lauren D'Arinzo, Hilke Schellmann, Mona
Sloane, Paul Squires, Julia Stoyanovich
- Abstract要約: 本稿では,アルゴリズムによる人格検査による予測の安定性の外部監査のための方法論を開発する。
我々は、この方法論をHumantic AIとCrystalの2つのシステムの監査でインスタンス化する。
両システムとも,測定の重要面に関してかなりの不安定性を示すことがわかった。
- 参考スコア(独自算出の注目度): 4.837064018590988
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated hiring systems are among the fastest-developing of all high-stakes
AI systems. Among these are algorithmic personality tests that use insights
from psychometric testing, and promise to surface personality traits indicative
of future success based on job seekers' resumes or social media profiles. We
interrogate the validity of such systems using stability of the outputs they
produce, noting that reliability is a necessary, but not a sufficient,
condition for validity. Our approach is to (a) develop a methodology for an
external audit of stability of predictions made by algorithmic personality
tests, and (b) instantiate this methodology in an audit of two systems,
Humantic AI and Crystal. Crucially, rather than challenging or affirming the
assumptions made in psychometric testing -- that personality is a meaningful
and measurable construct, and that personality traits are indicative of future
success on the job -- we frame our methodology around testing the underlying
assumptions made by the vendors of the algorithmic personality tests
themselves.
In our audit of Humantic AI and Crystal, we find that both systems show
substantial instability with respect to key facets of measurement, and so
cannot be considered valid testing instruments. For example, Crystal frequently
computes different personality scores if the same resume is given in PDF vs. in
raw text format, violating the assumption that the output of an algorithmic
personality test is stable across job-irrelevant variations in the input. Among
other notable findings is evidence of persistent -- and often incorrect -- data
linkage by Humantic AI.
- Abstract(参考訳): 自動化された雇用システムは、すべての高度なaiシステムの最速開発のひとつだ。
アルゴリズムによるパーソナリティテストは、心理計測テストからの洞察を使用し、求職者の履歴書やソーシャルメディアのプロフィールに基づいて、将来の成功を示すパーソナリティ特性を明らかにすることを約束する。
このようなシステムの妥当性を,生成する出力の安定性を用いて疑問視し,信頼性は必要ではあるが十分ではないことを指摘した。
私たちのアプローチは
(a)アルゴリズムによる人格検査による予測の安定性の外部監査のための方法論を開発し、
b) humantic ai と crystal の2つのシステムの監査において,この方法論をインスタンス化する。
重要なのは、心理計測テストでなされた仮定 -- 個性は有意義で測定可能な構成であり、パーソナリティ特性は仕事における将来の成功を示すものである -- に挑戦または肯定するのではなく、アルゴリズム的パーソナリティテスト自体のベンダーによってなされる基盤となる前提をテストするための方法論を構築します。
ヒューマティックAIとクリスタルの監査では、両システムとも測定の重要面に関してかなりの不安定性を示しており、有効な試験機器とはみなされない。
例えば、CrystalはPDFと生のテキストフォーマットで同じ履歴書が与えられた場合、異なるパーソナリティスコアを頻繁に計算し、アルゴリズムによるパーソナリティテストの出力が入力のジョブ非関連なバリエーションで安定であるという仮定に違反している。
その他の注目すべき発見として、Humantic AIによる永続的(しばしば正しくない)データリンクの証拠がある。
関連論文リスト
- The Future of Software Testing: AI-Powered Test Case Generation and Validation [0.0]
本稿では、テストケースの生成と検証を改善する上で、AIが持つ変革の可能性について考察する。
テストプロセスの効率性、正確性、スケーラビリティを高める能力に重点を置いている。
また、高品質なトレーニングデータの必要性など、テストにAIを適用する際の重要な課題にも対処している。
論文 参考訳(メタデータ) (2024-09-09T17:12:40Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Jointly Predicting Job Performance, Personality, Cognitive Ability,
Affect, and Well-Being [42.67003631848889]
本研究では,身体的および生理的行動,心理的状態と特徴,職能を統合した個人予測分析のためのベンチマークを作成する。
我々は、データマイニング技術をベンチマークとして設計し、ウェアラブルセンサから得られた真のノイズと不完全なデータを用いて、12の標準化された精確なテストに基づいて19の構造を予測する。
論文 参考訳(メタデータ) (2020-06-10T14:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。