論文の概要: I Think, Therefore I Am Under-Qualified? A Benchmark for Evaluating Linguistic Shibboleth Detection in LLM Hiring Evaluations
- arxiv url: http://arxiv.org/abs/2508.04939v1
- Date: Wed, 06 Aug 2025 23:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.648351
- Title: I Think, Therefore I Am Under-Qualified? A Benchmark for Evaluating Linguistic Shibboleth Detection in LLM Hiring Evaluations
- Title(参考訳): I think, I am Under-Qualified? A Benchmark for E Evaluation for Linguistic Shibboleth Detection in LLM Hiring Evaluations
- Authors: Julia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah,
- Abstract要約: 本稿では,大言語モデルが言語シボレスにどう反応するかを評価するための総合的なベンチマークを提案する。
等価な内容の質にもかかわらず,LLMが言語パターン,特にヘッジ言語を体系的にペナルティ化する方法を実証する。
我々は,複数の言語的側面に沿ったアプローチを検証し,ヘッジドレスポンスが平均25.6%低い評価を受けることを示した。
- 参考スコア(独自算出の注目度): 9.275967682881944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a comprehensive benchmark for evaluating how Large Language Models (LLMs) respond to linguistic shibboleths: subtle linguistic markers that can inadvertently reveal demographic attributes such as gender, social class, or regional background. Through carefully constructed interview simulations using 100 validated question-response pairs, we demonstrate how LLMs systematically penalize certain linguistic patterns, particularly hedging language, despite equivalent content quality. Our benchmark generates controlled linguistic variations that isolate specific phenomena while maintaining semantic equivalence, which enables the precise measurement of demographic bias in automated evaluation systems. We validate our approach along multiple linguistic dimensions, showing that hedged responses receive 25.6% lower ratings on average, and demonstrate the benchmark's effectiveness in identifying model-specific biases. This work establishes a foundational framework for detecting and measuring linguistic discrimination in AI systems, with broad applications to fairness in automated decision-making contexts.
- Abstract(参考訳): 本稿では,言語シボレスに対するLarge Language Models (LLMs) の対応性を評価するための総合的ベンチマークについて紹介する。
検証された100組の質問応答対を用いた面接シミュレーションを精査し,LLMが同等のコンテンツ品質にもかかわらず,特定の言語パターン,特にヘッジ言語を体系的にペナルティ化する方法を実証した。
本ベンチマークでは,意味的等価性を保ちながら,特定の現象を分離する言語的変化を制御し,自動評価システムにおける階層バイアスの正確な測定を可能にする。
我々は,複数の言語的側面に沿ったアプローチを検証し,ヘッジドレスポンスが平均25.6%低い評価を受けることを示すとともに,モデル固有のバイアスを特定する上でのベンチマークの有効性を示す。
この研究は、AIシステムにおける言語的識別を検知し、測定するための基礎的な枠組みを確立し、自動意思決定コンテキストにおける公平性に広く適用する。
関連論文リスト
- Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。
我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文 参考訳(メタデータ) (2025-07-28T12:01:59Z) - Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework [9.162876771766513]
本稿では,言語構造とユーザ人口統計に基づく,制御された現実的なプロンプトフレーズを生成するフレームワークであるAUGMENTを紹介する。
AUGMENTは、セマンティック、スタイリスティック、命令追従の基準を組み合わせることで、パラフレーズの品質を保証する。
この結果から,大規模言語モデルにおいて,より代表的で構造化されたアプローチの必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-06T14:17:30Z) - Detecting Linguistic Indicators for Stereotype Assessment with Large Language Models [0.9285295512807729]
社会カテゴリーとステレオタイプは言語に埋め込まれており、大規模言語モデルにデータバイアスを導入することができる。
本稿では,文中のステレオタイプの言語指標を検出し,定量化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T14:15:28Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。
ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。
この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-01-08T12:54:05Z) - How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。
量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文 参考訳(メタデータ) (2024-07-03T15:39:40Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。