論文の概要: Linear socio-demographic representations emerge in Large Language Models from indirect cues
- arxiv url: http://arxiv.org/abs/2512.10065v1
- Date: Wed, 10 Dec 2025 20:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.056969
- Title: Linear socio-demographic representations emerge in Large Language Models from indirect cues
- Title(参考訳): 間接的手がかりから大規模言語モデルに現れる線形社会デミノグラフィー表現
- Authors: Paul Bouchaud, Pedro Ramaciotti,
- Abstract要約: LLMは、名前や職業といった間接的な手がかりから推測される人間の会話相手の社会デマログラフィー特性を符号化する。
本研究では,LCMが活性化空間内でのユーザ人口分布の線形表現を開発し,ステレオタイプに関連付けられた属性を解釈可能な幾何学的方向に沿って符号化することを示す。
我々の研究は、バイアスベンチマークテストに合格したモデルがいまだに暗黙のバイアスを保ち、スケールで適用した場合の公平性に影響を及ぼす可能性があることを強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We investigate how LLMs encode sociodemographic attributes of human conversational partners inferred from indirect cues such as names and occupations. We show that LLMs develop linear representations of user demographics within activation space, wherein stereotypically associated attributes are encoded along interpretable geometric directions. We first probe residual streams across layers of four open transformer-based LLMs (Magistral 24B, Qwen3 14B, GPT-OSS 20B, OLMo2-1B) prompted with explicit demographic disclosure. We show that the same probes predict demographics from implicit cues: names activate census-aligned gender and race representations, while occupations trigger representations correlated with real-world workforce statistics. These linear representations allow us to explain demographic inferences implicitly formed by LLMs during conversation. We demonstrate that these implicit demographic representations actively shape downstream behavior, such as career recommendations. Our study further highlights that models that pass bias benchmark tests may still harbor and leverage implicit biases, with implications for fairness when applied at scale.
- Abstract(参考訳): 本研究では,人名や職業などの間接的手がかりから推定される会話相手の社会デマログラフィー特性をLLMがどう符号化するかを検討する。
本研究では,LCMが活性化空間内でのユーザ人口分布の線形表現を開発し,ステレオタイプに関連付けられた属性を解釈可能な幾何学的方向に沿って符号化することを示す。
まず、4つのオープントランスを用いたLCM(Magistral 24B, Qwen3 14B, GPT-OSS 20B, OLMo2-1B)の層間残差ストリームを探索し、人口統計学的開示を行った。
同じ調査では、人口統計を暗黙の手がかりから予測し、人口統計と実際の労働人口統計と相関した表現を職業が引き起こすのに対し、名称は国勢調査に適合した性別と人種の表現を活性化する。
これらの線形表現は、会話中にLLMによって暗黙的に形成される人口推定を説明できる。
これらの暗黙的な人口統計表現が、キャリアレコメンデーションのような下流の行動を積極的に形作っていることを実証する。
我々の研究は、バイアスベンチマークテストに合格したモデルがいまだに暗黙のバイアスを保ち、スケールで適用した場合の公平性に影響を及ぼす可能性があることを強調した。
関連論文リスト
- A Comprehensive Study of Implicit and Explicit Biases in Large Language Models [1.0555164678638427]
この研究は、生成的AIが増大する中で、大規模言語モデルにおけるバイアスに対処する必要があることを強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的ベンチマークを用いて,BERT や GPT 3.5 といった複数の生成モデルにおける様々なバイアスの存在を評価する。
その結果、微調整されたモデルでは性別バイアスに悩まされるが、人種バイアスの特定と回避には優れていた。
論文 参考訳(メタデータ) (2025-11-18T05:27:17Z) - Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models [81.45743826739054]
大きな障壁は、LAION-400MのようなWebスケールデータセットにおける人口統計アノテーションの欠如である。
2億7600万以上のバウンディングボックスや、性別や人種/民族ラベルの認識、キャプションの自動生成など、完全なデータセットのための人中心アノテーションを作成します。
それらを用いて、黒人や中東と見なされる男性や個人と犯罪に関連する負のコンテンツとの不均等な結びつきなど、人口不均衡や有害な関連を明らかにする。
論文 参考訳(メタデータ) (2025-10-04T07:51:59Z) - Reading Between the Prompts: How Stereotypes Shape LLM's Implicit Personalization [13.034294029448338]
LLM(Generative Large Language Models)は、会話における微妙な手がかりからユーザの人口統計情報を推測する。
この結果から,LLMのユーザアイデンティティの表現方法に対する透明性の向上とコントロールの必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-22T09:48:51Z) - Beyond Demographics: Fine-tuning Large Language Models to Predict Individuals' Subjective Text Perceptions [33.76973308687867]
モデルにより,学習時の社会デマログラフィーの促進効果が向上することを示す。
このパフォーマンス向上は主に、ソシオデマトグラフィーパターンよりも、アノテータ固有の振る舞いを学ぶモデルが原因である。
全ての課題において,本研究の結果から,ソシオデマトグラフィーとアノテーションの関連性はほとんど学習されていないことが示唆された。
論文 参考訳(メタデータ) (2025-02-28T09:53:42Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。