論文の概要: DAIQ: Auditing Demographic Attribute Inference from Question in LLMs
- arxiv url: http://arxiv.org/abs/2508.15830v1
- Date: Mon, 18 Aug 2025 19:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.099203
- Title: DAIQ: Auditing Demographic Attribute Inference from Question in LLMs
- Title(参考訳): DAIQ:LLMsの質問から学ぶデモグラフィック属性
- Authors: Srikant Panda, Hitesh Laxmichand Patel, Shahad Al-Khalifa, Amit Agarwal, Hend Al-Khalifa, Sharefah Al-Ghamdi,
- Abstract要約: 大規模言語モデル(LLM)は、性別や人種などの人口特性が入力の中に明示的に存在するときに、社会的偏見を反映することが知られている。
しかし、それらのモデルが存在しない場合でも、これらのモデルは質問のフレーズだけでユーザーのアイデンティティを推測する。
本稿では,言語モデルで見過ごされた障害モードを監査するためのタスクおよびフレームワークであるDAIQを紹介する。
- 参考スコア(独自算出の注目度): 3.1677998308405786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are known to reflect social biases when demographic attributes, such as gender or race, are explicitly present in the input. But even in their absence, these models still infer user identities based solely on question phrasing. This subtle behavior has received far less attention, yet poses serious risks: it violates expectations of neutrality, infers unintended demographic information, and encodes stereotypes that undermine fairness in various domains including healthcare, finance and education. We introduce Demographic Attribute Inference from Questions (DAIQ), a task and framework for auditing an overlooked failure mode in language models: inferring user demographic attributes from questions that lack explicit demographic cues. Our approach leverages curated neutral queries, systematic prompting, and both quantitative and qualitative analysis to uncover how models infer demographic information. We show that both open and closed source LLMs do assign demographic labels based solely on question phrasing. Prevalence and consistency of demographic inferences across diverse models reveal a systemic and underacknowledged risk: LLMs can fabricate demographic identities, reinforce societal stereotypes, and propagate harms that erode privacy, fairness, and trust posing a broader threat to social equity and responsible AI deployment. To mitigate this, we develop a prompt-based guardrail that substantially reduces identity inference and helps align model behavior with fairness and privacy objectives.
- Abstract(参考訳): 大規模言語モデル(LLM)は、性別や人種などの人口特性が入力の中に明示的に存在するときに、社会的偏見を反映することが知られている。
しかし、それらのモデルが存在しない場合でも、これらのモデルは質問のフレーズだけでユーザーのアイデンティティを推測する。
中立性の期待に反し、意図しない人口統計情報を推測し、医療、金融、教育など様々な分野の公平性を損なうステレオタイプを符号化する。
本稿では,言語モデルで見過ごされた障害モードを監査するためのタスクとフレームワークであるDAIQについて紹介する。
提案手法では, モデルがどのように人口統計情報を推測するかを明らかにするために, キュレートされた中立クエリ, システマティックプロンプト, 量的および質的分析を利用する。
オープンソースLLMもクローズドソースLLMも,質問文のみに基づく階層ラベルを割り当てていることを示す。
LLMは、人口統計のアイデンティティを作成し、社会的ステレオタイプを強化し、プライバシ、公正性、信頼を損なう危険を伝播し、社会的エクイティと責任あるAIデプロイメントに対するより広範な脅威を示す。
これを軽減するために,個人性推論を大幅に低減し,モデル行動と公平性とプライバシ目的との整合を支援するプロンプトベースのガードレールを開発した。
関連論文リスト
- Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Assessing the Reliability of LLMs Annotations in the Context of Demographic Bias and Model Explanation [5.907945985868999]
本研究では,アノテータの人口統計学的特徴がテキストコンテンツと比較してラベル決定に与える影響について検討した。
一般化線形混合モデルを用いて、この差分率を定量化し、観測された分散のごく一部(8%)が人口統計因子であることを示した。
次に、ジェネレーティブAI(GenAI)モデルの信頼性をアノテータとして評価し、人口統計学的パーソナによる指導が人間の判断との整合性を改善するかどうかを具体的に評価する。
論文 参考訳(メタデータ) (2025-07-17T14:00:13Z) - Veracity Bias and Beyond: Uncovering LLMs' Hidden Beliefs in Problem-Solving Reasoning [4.452208564152158]
人口統計学的ステレオタイプに対する人間の価値整合モデルとの整合性にもかかわらず、様々な社会的文脈下でバイアスを示すことが示されている。
帰属バイアス(Attribution Bias)は、特定の人口集団に対する正しい解を不均等に属性するものであり、評価バイアス(Access Bias)とは、同一の解に対するモデルの評価が、認識された人口集団の権威に基づいて異なるものである。
以上の結果から, 人口統計学的偏見は, 表面レベルのステレオタイプや社会的文脈的挑発を超えて, 教育・評価環境におけるLCMの展開に対する懸念が高まることが示唆された。
論文 参考訳(メタデータ) (2025-05-22T02:13:48Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - SF-PATE: Scalable, Fair, and Private Aggregation of Teacher Ensembles [50.90773979394264]
本稿では、個人の機密情報のプライバシーを保護しつつ、差別的でない予測者の学習を可能にするモデルについて検討する。
提案モデルの主な特徴は、プライバシ保護とフェアモデルを作成するために、オフ・ザ・セルフと非プライベートフェアモデルの採用を可能にすることである。
論文 参考訳(メタデータ) (2022-04-11T14:42:54Z) - Measuring Fairness Under Unawareness of Sensitive Attributes: A
Quantification-Based Approach [131.20444904674494]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
定量化手法は, フェアネスと無意識の問題に対処するのに特に適していることを示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。