論文の概要: Do Gender Cues Affect LLM Value Trade-offs? Evidence from a Controlled Decision Benchmark
- arxiv url: http://arxiv.org/abs/2606.02214v1
- Date: Mon, 01 Jun 2026 13:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.087769
- Title: Do Gender Cues Affect LLM Value Trade-offs? Evidence from a Controlled Decision Benchmark
- Title(参考訳): ジェンダー・キューはLLM価値のトレードオフに影響を及ぼすか? -制御決定ベンチマークによる証拠-
- Authors: Yangyang Liu, Dong Yu, Pengyuan Liu,
- Abstract要約: シナリオを保持しながらロールジェンダーの設定だけを変えるベンチマークを構築します。
明示的なジェンダーの手がかりは、有界だが体系的な意思決定のフリップを引き起こす。
ジェンダー効果は、決定的な値境界の近くに集中しており、ジェンダーの手がかりが局所的な境界シフト要因として働くことを示唆している。
- 参考スコア(独自算出の注目度): 33.25199452418043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly used in value-sensitive decision settings, where irrelevant demographic cues should not alter judgments. We construct the Realistic Value Decision Benchmark (RVDB), a controlled benchmark that varies only the role-gender configuration while holding the scenario, ordered value pair, roles, candidate decisions, Value Distance, and Decision Severity fixed. Using a position-balanced evaluation across seven models, we test whether models preserve decision invariance under gender perturbations and whether their self-attributions reflect observed behavioral changes. We find that explicit gender cues induce bounded but systematic decision flips, including under an explicit gender-attribution prompt that asks models to report whether gender influenced their choice. Cross-gender role swaps reveal a consistent female-proposed-decision asymmetry, while models often attribute flipped decisions to No Influence or other non-gender factors. Further analysis shows that gender effects concentrate near less determinate value boundaries and under more severe decision contexts, suggesting that gender cues act as local boundary-shifting factors rather than global overrides of value reasoning. Value rankings remain largely stable, but ordered value-pair trade-offs shift unevenly across role-gender configurations. These results show that gender can enter LLM value trade-offs behaviorally while remaining obscured in self-attribution, motivating controlled behavioral audits beyond explanation-based evaluation.
- Abstract(参考訳): 大規模な言語モデルは、無関係な人口統計学的手がかりが判断を変えるべきではないような、価値に敏感な意思決定設定において、ますます使われるようになっている。
我々は、シナリオ、順序付けられた値ペア、役割、候補決定、値距離、決定重症度を固定しながら、ロールジェンダー構成だけを変える制御されたベンチマークであるRealistic Value Decision Benchmark(RVDB)を構築した。
7つのモデルにまたがる位置バランス評価を用いて、モデルが性摂動下での意思決定の不分散を保ち、その自己帰属が観察された行動変化を反映するかどうかを検証した。
明示的なジェンダー・キューは、性別が選択に影響を及ぼしたかどうかをモデルに報告するよう求める明示的なジェンダー属性・プロンプトを含む、有界だが体系的な意思決定のフリップを誘発する。
異性間ロールスワップは、一貫した女性決定非対称性を示す一方、モデルはしばしば、No Influenceや他の非性的要因に反転した決定に帰着する。
さらなる分析により、性別効果は、決定的な値境界に近づき、より厳しい決定コンテキスト下に集中していることが示され、男女の手がかりは、価値推論のグローバルなオーバーライドよりも、局所的な境界シフト要因として働くことが示唆された。
価値ランキングは依然として安定しているが、順序付けられた価値対価値のトレードオフはロール-ジェンダー構成に不均一に移行している。
これらの結果から,性別は自己帰属に不明瞭なままで,かつ,説明に基づく評価以上の行動監査を動機付けることができることがわかった。
関連論文リスト
- Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation [116.86965910589775]
対象物の10%だけをマスクしたり、背景が弱くぼやけたりといった、最小限の摂動でさえ、バイアススコアを劇的に変える可能性がある。
これは、現在のバイアス評価がモデル応答を、性別バイアスよりも刺激的な特徴に反映していることを示唆している。
論文 参考訳(メタデータ) (2025-09-09T11:14:11Z) - The LLM Wears Prada: Analysing Gender Bias and Stereotypes through Online Shopping Data [8.26034886618475]
本研究では,オンラインショッピング履歴のみに基づいて,大規模言語モデルが個人の性別を予測できるかどうかを検討する。
米国ユーザーのオンライン購入履歴のデータセットを用いて、性別を分類する6つのLCMの能力を評価する。
結果は、モデルが適度な精度で性別を推測できる一方で、その決定は製品カテゴリーと性別のステレオタイプ的関連に根ざしていることを示している。
論文 参考訳(メタデータ) (2025-04-02T17:56:08Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。