論文の概要: Reading Between the Prompts: How Stereotypes Shape LLM's Implicit Personalization
- arxiv url: http://arxiv.org/abs/2505.16467v1
- Date: Thu, 22 May 2025 09:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.206182
- Title: Reading Between the Prompts: How Stereotypes Shape LLM's Implicit Personalization
- Title(参考訳): プロンプト間の読み:ステレオタイプがLLMの暗黙のパーソナライゼーションをいかに形作るか
- Authors: Vera Neplenbroek, Arianna Bisazza, Raquel Fernández,
- Abstract要約: LLM(Generative Large Language Models)は、会話における微妙な手がかりからユーザの人口統計情報を推測する。
この結果から,LLMのユーザアイデンティティの表現方法に対する透明性の向上とコントロールの必要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 6.781972039785424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Large Language Models (LLMs) infer user's demographic information from subtle cues in the conversation -- a phenomenon called implicit personalization. Prior work has shown that such inferences can lead to lower quality responses for users assumed to be from minority groups, even when no demographic information is explicitly provided. In this work, we systematically explore how LLMs respond to stereotypical cues using controlled synthetic conversations, by analyzing the models' latent user representations through both model internals and generated answers to targeted user questions. Our findings reveal that LLMs do infer demographic attributes based on these stereotypical signals, which for a number of groups even persists when the user explicitly identifies with a different demographic group. Finally, we show that this form of stereotype-driven implicit personalization can be effectively mitigated by intervening on the model's internal representations using a trained linear probe to steer them toward the explicitly stated identity. Our results highlight the need for greater transparency and control in how LLMs represent user identity.
- Abstract(参考訳): ジェネレーティブ・大型言語モデル(LLM)は、会話の微妙な手がかりからユーザーの人口統計情報を推測する。
先行研究は、人口統計情報が明示的に提供されていない場合でも、そのような推測が少数派のユーザーにとって低い品質の反応をもたらすことを示した。
本研究では,両モデル内部からモデルの潜在ユーザ表現を解析し,対象ユーザ質問に対する回答を生成することによって,LLMが制御された合成会話を用いてステレオタイプ的キューにどう反応するかを体系的に検討する。
以上の結果から,LSMはこれらのステレオタイプ信号に基づいて人口統計学的特性を推測し,ユーザが異なる人口統計学的グループで明確に識別した場合,多くのグループで持続することが明らかとなった。
最後に,このようなステレオタイプによる暗黙的パーソナライゼーションは,訓練された線形プローブを用いてモデルの内部表現を介入することで効果的に緩和できることを示す。
この結果から,LLMのユーザアイデンティティの表現方法に対する透明性の向上とコントロールの必要性が浮き彫りになった。
関連論文リスト
- Investigating and Mitigating Stereotype-aware Unfairness in LLM-based Recommendations [18.862841015556995]
大きな言語モデル(LLM)は、前例のない言語理解と推論能力を示している。
近年の研究では、LLMが単語埋め込みにユビキタスに埋め込まれたステレオタイプを継承する可能性が示されている。
本研究は, LLM-RSにおけるステレオタイプに対する識別を定量化するために, ユーザとアイテムの両方を含むステレオタイプグループ間のフェアネスの新たな変種を明らかにした。
論文 参考訳(メタデータ) (2025-04-05T15:09:39Z) - Stereotype or Personalization? User Identity Biases Chatbot Recommendations [54.38329151781466]
大規模言語モデル(LLM)は,ユーザが何を望んでいるのか,何者なのかを反映したレコメンデーションを生成する。
モデルが、ユーザが意図的に自身のアイデンティティを明らかにするかどうかに関わらず、人種的にステレオタイプなレコメンデーションを生成することがわかった。
実験の結果,ユーザの識別がモデルレコメンデーションに大きく影響しているにもかかわらず,モデル応答はユーザクエリに応答して,この事実を難読化することがわかった。
論文 参考訳(メタデータ) (2024-10-08T01:51:55Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。