論文の概要: No for Some, Yes for Others: Persona Prompts and Other Sources of False Refusal in Language Models
- arxiv url: http://arxiv.org/abs/2509.08075v1
- Date: Tue, 09 Sep 2025 18:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.222665
- Title: No for Some, Yes for Others: Persona Prompts and Other Sources of False Refusal in Language Models
- Title(参考訳): No for Some, Yes for Others: Persona Prompts and Other Sources of False Refusal in Language Models (英語)
- Authors: Flor Miriam Plaza-del-Arco, Paul Röttger, Nino Scherrer, Emanuele Borgonovo, Elmar Plischke, Dirk Hovy,
- Abstract要約: 大規模言語モデル(LLM)は、私たちの日常生活にますます統合され、パーソナライズされています。
最近の研究は、ペルソナのプロンプトによってモデルが誤ったユーザ要求を拒否する可能性があることを示唆している。
15人の社会デマティック・ペルソナ(性別、人種、宗教、障害)が虚偽の拒絶に与える影響を計測した。
- 参考スコア(独自算出の注目度): 33.37487557422034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly integrated into our daily lives and personalized. However, LLM personalization might also increase unintended side effects. Recent work suggests that persona prompting can lead models to falsely refuse user requests. However, no work has fully quantified the extent of this issue. To address this gap, we measure the impact of 15 sociodemographic personas (based on gender, race, religion, and disability) on false refusal. To control for other factors, we also test 16 different models, 3 tasks (Natural Language Inference, politeness, and offensiveness classification), and nine prompt paraphrases. We propose a Monte Carlo-based method to quantify this issue in a sample-efficient manner. Our results show that as models become more capable, personas impact the refusal rate less and less. Certain sociodemographic personas increase false refusal in some models, which suggests underlying biases in the alignment strategies or safety mechanisms. However, we find that the model choice and task significantly influence false refusals, especially in sensitive content tasks. Our findings suggest that persona effects have been overestimated, and might be due to other factors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、私たちの日常生活にますます統合され、パーソナライズされています。
しかし、LSMのパーソナライゼーションは意図しない副作用を増大させる可能性がある。
最近の研究は、ペルソナのプロンプトによってモデルが誤ったユーザ要求を拒否する可能性があることを示唆している。
しかし、この問題の程度を完全に定量化する研究は行われていない。
このギャップに対処するため、15人の社会デマグラフィー・ペルソナ(性別、人種、宗教、障害)が虚偽の拒絶に与える影響を計測した。
また,他の要因を制御するために,16の異なるモデル,3つのタスク(自然言語推論,丁寧さ,攻撃性分類),9つのプロンプトパラフレーズを検証した。
本稿では,モンテカルロ法を用いて,この問題をサンプル効率よく定量化する手法を提案する。
その結果、モデルがより有能になるにつれて、ペルソナは拒絶率に徐々に影響を及ぼすことが明らかとなった。
ある社会デマトグラフィーのペルソナは、アライメント戦略や安全メカニズムの根底にあるバイアスを示唆するいくつかのモデルにおいて、偽の拒絶を増大させる。
しかし、モデル選択とタスクは、特にセンシティブなコンテンツタスクにおいて、虚偽の拒絶に大きな影響を及ぼすことがわかった。
以上の結果から,ペルソナ効果は過大評価され,他の要因による可能性が示唆された。
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。
これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。
本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。
行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文 参考訳(メタデータ) (2024-06-24T16:31:11Z) - Modeling Human Subjectivity in LLMs Using Explicit and Implicit Human Factors in Personas [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。
これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。
我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文 参考訳(メタデータ) (2024-06-20T16:24:07Z) - Evaluating Large Language Model Biases in Persona-Steered Generation [26.92498998306013]
大規模な言語モデル (LLM) は、不連続な人格に対して、連続した人格よりも9.7%少ないことが示される。
強化学習(Reinforcement Learning from Human Feedback, RLHF)により微調整されたモデルは、特に政治的リベラル派や女性に関連するスタンスに対して、より安定している。
論文 参考訳(メタデータ) (2024-05-30T17:06:03Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。