論文の概要: Who's Asking? Investigating Bias Through the Lens of Disability Framed Queries in LLMs
- arxiv url: http://arxiv.org/abs/2508.15831v1
- Date: Mon, 18 Aug 2025 21:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.100326
- Title: Who's Asking? Investigating Bias Through the Lens of Disability Framed Queries in LLMs
- Title(参考訳): LLMの障害者用フレーム・クレーム・クレーム(動画)
- Authors: Srikant Panda, Vishnu Hari, Kalpana Panda, Amit Agarwal, Hitesh Laxmichand Patel,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザの人口統計特性を、単独で推測する。
これらの推論を形作る際の障害の手がかりは、ほとんど未発見のままである。
そこで本研究では,障害条件による人口統計バイアスを,最先端の8つのLLMに対して,初めて体系的に評価した。
- 参考スコア(独自算出の注目度): 2.722784054643991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) routinely infer users demographic traits from phrasing alone, which can result in biased responses, even when no explicit demographic information is provided. The role of disability cues in shaping these inferences remains largely uncharted. Thus, we present the first systematic audit of disability-conditioned demographic bias across eight state-of-the-art instruction-tuned LLMs ranging from 3B to 72B parameters. Using a balanced template corpus that pairs nine disability categories with six real-world business domains, we prompt each model to predict five demographic attributes - gender, socioeconomic status, education, cultural background, and locality - under both neutral and disability-aware conditions. Across a varied set of prompts, models deliver a definitive demographic guess in up to 97\% of cases, exposing a strong tendency to make arbitrary inferences with no clear justification. Disability context heavily shifts predicted attribute distributions, and domain context can further amplify these deviations. We observe that larger models are simultaneously more sensitive to disability cues and more prone to biased reasoning, indicating that scale alone does not mitigate stereotype amplification. Our findings reveal persistent intersections between ableism and other demographic stereotypes, pinpointing critical blind spots in current alignment strategies. We release our evaluation framework and results to encourage disability-inclusive benchmarking and recommend integrating abstention calibration and counterfactual fine-tuning to curb unwarranted demographic inference. Code and data will be released on acceptance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、明示的な人口統計情報が提供されていなくても、ユーザーの人口統計特性が偏見を生じさせるような表現から、定期的にユーザーの人口統計特性を推測する。
これらの推論を形作る上での障害の手がかりの役割は、いまだにほとんど見当たらない。
そこで本研究では,3B から72B のパラメータを含む8つの最先端の命令調整 LLM を対象に,障害条件による人口統計バイアスの体系的評価を行った。
9つの障害カテゴリを6つの現実世界のビジネスドメインと組み合わせたバランスの取れたテンプレートコーパスを用いて、中立と障害認識の両条件下で、各モデルに、性別、社会経済的地位、教育、文化的背景、地域性の5つの属性を予測させる。
さまざまなプロンプトの集合の中で、モデルは最大99%のケースにおいて決定的な人口統計学的推測をもたらし、明確な正当性のない任意の推論を行う強い傾向を露呈する。
障害コンテキストは予測された属性分布を大きくシフトさせ、ドメインコンテキストはこれらのずれをさらに増幅する。
より大型のモデルでは障害の手がかりに敏感であり,バイアス推論に敏感であることから,スケール単独ではステレオタイプ増幅を軽減できないことが示唆された。
以上の結果から,現行のアライメント戦略において重要な盲点を指摘し,アクチズムと他の階層的ステレオタイプとの永続的な交差を見いだすことができた。
我々は,障害非包括的ベンチマークを促進するための評価フレームワークと結果をリリースし,不確実な人口推定を抑えるために,禁忌校正とファクトファクトファインタニングの統合を推奨する。
コードとデータは受理時にリリースされる。
関連論文リスト
- Investigating Intersectional Bias in Large Language Models using Confidence Disparities in Coreference Resolution [5.061421107401101]
大規模言語モデル(LLM)は目覚ましいパフォーマンスを達成し、採用や受け入れといったリソース制約のあるコンテキストで意思決定支援ツールとして広く採用されている。
しかし、AIシステムは社会的バイアスを反映し、さらに悪化させることができるという科学的コンセンサスがあり、批判的な社会的文脈で使用される場合、アイデンティティに基づく害についての懸念が高まる。
本研究では,複数の識別軸が交差する際,異なる不利パターンを生じることを認識して,一軸の公平性評価を拡張し,交差バイアスを検証した。
論文 参考訳(メタデータ) (2025-08-09T22:24:40Z) - Assessing the Reliability of LLMs Annotations in the Context of Demographic Bias and Model Explanation [5.907945985868999]
本研究では,アノテータの人口統計学的特徴がテキストコンテンツと比較してラベル決定に与える影響について検討した。
一般化線形混合モデルを用いて、この差分率を定量化し、観測された分散のごく一部(8%)が人口統計因子であることを示した。
次に、ジェネレーティブAI(GenAI)モデルの信頼性をアノテータとして評価し、人口統計学的パーソナによる指導が人間の判断との整合性を改善するかどうかを具体的に評価する。
論文 参考訳(メタデータ) (2025-07-17T14:00:13Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - Robustly Improving LLM Fairness in Realistic Settings via Interpretability [0.16843915833103415]
現実的な文脈の詳細が導入されたとき、アンチバイアスプロンプトは失敗する。
企業名や公的キャリアページからの文化記述などの現実的なコンテキストの追加,選択的な雇用制限は,人種的および性別的偏見を著しく引き起こすことが判明した。
我々の内部バイアス緩和は人種や性別に関連する方向を特定し、推論時にアフィンの概念を編集する。
論文 参考訳(メタデータ) (2025-06-12T17:34:38Z) - Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - Who Does the Giant Number Pile Like Best: Analyzing Fairness in Hiring Contexts [5.111540255111445]
レースベースの違いは生成したサマリーの約10%に現れ、ジェンダーベースの違いは1%に過ぎなかった。
検索モデルは非デデマグラフィー的変化に匹敵する感度を示し、公平性問題は一般的な脆性問題に起因する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-01-08T07:28:10Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Measuring Fairness Under Unawareness of Sensitive Attributes: A
Quantification-Based Approach [131.20444904674494]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
定量化手法は, フェアネスと無意識の問題に対処するのに特に適していることを示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。