論文の概要: Invisible Filters: Cultural Bias in Hiring Evaluations Using Large Language Models
- arxiv url: http://arxiv.org/abs/2508.16673v1
- Date: Thu, 21 Aug 2025 07:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.108792
- Title: Invisible Filters: Cultural Bias in Hiring Evaluations Using Large Language Models
- Title(参考訳): 可視フィルタ:大規模言語モデルを用いた採用評価における文化的バイアス
- Authors: Pooja S. B. Rao, Laxminarayen Nagarajan Venkatesan, Mauro Cherubini, Dinesh Babu Jayagopi,
- Abstract要約: 人工知能(AI)は雇用にますます使われており、大きな言語モデル(LLM)は雇用決定に影響を与える可能性がある。
このことは、バイアス、公平性、信頼について、特にさまざまな文化的文脈において、強い関心を喚起します。
我々は,LLMが文化・アイデンティティの面から求人面接をどのように評価するかを体系的に分析する。
- 参考スコア(独自算出の注目度): 2.48490797934472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence (AI) is increasingly used in hiring, with large language models (LLMs) having the potential to influence or even make hiring decisions. However, this raises pressing concerns about bias, fairness, and trust, particularly across diverse cultural contexts. Despite their growing role, few studies have systematically examined the potential biases in AI-driven hiring evaluation across cultures. In this study, we conduct a systematic analysis of how LLMs assess job interviews across cultural and identity dimensions. Using two datasets of interview transcripts, 100 from UK and 100 from Indian job seekers, we first examine cross-cultural differences in LLM-generated scores for hirability and related traits. Indian transcripts receive consistently lower scores than UK transcripts, even when they were anonymized, with disparities linked to linguistic features such as sentence complexity and lexical diversity. We then perform controlled identity substitutions (varying names by gender, caste, and region) within the Indian dataset to test for name-based bias. These substitutions do not yield statistically significant effects, indicating that names alone, when isolated from other contextual signals, may not influence LLM evaluations. Our findings underscore the importance of evaluating both linguistic and social dimensions in LLM-driven evaluations and highlight the need for culturally sensitive design and accountability in AI-assisted hiring.
- Abstract(参考訳): 人工知能(AI)は雇用にますます使われており、大きな言語モデル(LLM)は雇用決定に影響を与える可能性がある。
しかし、これはバイアス、公平性、信頼、特に様々な文化的文脈における懸念を強く引き起こす。
その役割の増大にもかかわらず、AIによる文化全体にわたる雇用評価の潜在的なバイアスを体系的に調査する研究はほとんどない。
本研究では,LLMが文化・アイデンティティの面から求人面接をどのように評価するかを体系的に分析する。
インド人求職者100名と英国人100名からなる面接書の2つのデータセットを用いて,まず,LLM生成スコアと関連形質の異文化間差異について検討した。
インドの書き起こしは、匿名化されても、英語の書き起こしよりも一貫して低いスコアを受け取り、文の複雑さや語彙の多様性といった言語的特徴に相違がある。
次に、インドデータセット内で、名前に基づくバイアスをテストするために、制御されたアイデンティティ置換(性別、キャスター、地域によって異なる名前)を実行する。
これらの置換は統計的に有意な影響を与えず、他の文脈的信号から分離された名前だけではLSMの評価に影響を与えないことを示している。
本研究は,LLMによる評価において言語と社会の両側面を評価することの重要性を強調し,AIによる採用における文化的に敏感なデザインと説明責任の必要性を強調した。
関連論文リスト
- Measuring South Asian Biases in Large Language Models [1.5903891569492878]
本研究は,Large Language Models (LLMs) の多言語および交叉解析を行うことにより,ギャップに対処する。
我々は、性別、宗教、婚姻状況、子供の数など、未発見の交差点を捉えた文化的根拠に基づく偏見辞書を構築した。
Indo-Aryan言語とDravidian言語における文化的偏見を減らすための2つの自己バイアス戦略を評価する。
論文 参考訳(メタデータ) (2025-05-24T02:18:17Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。