論文の概要: Prompt Fairness: Sub-group Disparities in LLMs
- arxiv url: http://arxiv.org/abs/2511.19956v1
- Date: Tue, 25 Nov 2025 06:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.293911
- Title: Prompt Fairness: Sub-group Disparities in LLMs
- Title(参考訳): プロンプトフェアネス:LDMにおけるサブグループ格差
- Authors: Meiyu Zhong, Noel Teku, Ravi Tandon,
- Abstract要約: 大きな言語モデル(LLM)は、応答の質において大きく異なる。
具体的には、原則として尋ねられるのと同じ質問にもかかわらず、異なるユーザやスタイルによるプロンプトの表現は、LLMから異なる応答を引き出す可能性がある。
- 参考スコア(独自算出の注目度): 6.323099177487504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), though shown to be effective in many applications, can vary significantly in their response quality. In this paper, we investigate this problem of prompt fairness: specifically, the phrasing of a prompt by different users/styles, despite the same question being asked in principle, may elicit different responses from an LLM. To quantify this disparity, we propose to use information-theoretic metrics that can capture two dimensions of bias: subgroup sensitivity, the variability of responses within a subgroup and cross group consistency, the variability of responses across subgroups. Our analysis reveals that certain subgroups exhibit both higher internal variability and greater divergence from others. Our empirical analysis reveals that certain demographic sub groups experience both higher internal variability and greater divergence from others, indicating structural inequities in model behavior. To mitigate these disparities, we propose practical interventions, including majority voting across multiple generations and prompt neutralization, which together improve response stability and enhance fairness across user populations. In the experiments, we observe clear prompt sensitivity disparities across demographic subgroups: before mitigation, cross-group divergence values reach 0.28 and typically fall in the from 0.14 to 0.22 range. After applying our neutralization and multi generation strategy, these divergences consistently decrease, with the largest gap reduced to 0.22 and many distances falling to 0.17 or below, indicating more stable and consistent outputs across subgroups.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのアプリケーションで有効であることが示されているが、応答の質は著しく異なる。
本稿では,各ユーザやスタイルによるプロンプトの表現を,原則的に問うたのと同じ質問であっても,LLMから異なる応答を導き出すことができる,という課題について検討する。
この格差を定量化するために,サブグループ感度,サブグループ内の応答のばらつき,サブグループ間の応答のばらつき,サブグループ間の応答のばらつきという,2次元のバイアスを捉えることのできる情報理論メトリクスを提案する。
分析の結果,一部の部分群は内部変動性が高く,他の部分群とのばらつきも大きいことが明らかとなった。
我々の経験的分析により、一部の人口集団は内部の多様性が高く、他の集団との差異が大きいことが示され、モデル行動における構造的不等式が示される。
これらの格差を緩和するため、複数世代にわたる多数決や中立化の促進など実践的な介入を提案し、それによって応答安定性が向上し、利用者間の公正性が向上する。
実験では、人口集団間での即効感度の相違が明らかとなり、緩和前は集団間の発散値が0.28に達し、通常は0.14から0.22の範囲に落ちる。
中立化と多世代戦略を適用した後、これらの分岐は一貫して減少し、最大のギャップは0.22に減少し、多くの距離は0.17以下に減少し、サブグループ間でより安定で一貫した出力を示す。
関連論文リスト
- Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [24.54292750583169]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiSCo(Fine-fine Semantic Comparison)を提案する。
モデル出力を意味的に異なるクレームに分解し、グループ間およびグループ間の類似性を比較するために統計的仮説テストを適用する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - Size-adaptive Hypothesis Testing for Fairness [8.315080617799445]
我々は、公正性評価を証拠に基づく統計的決定に変換する統一的、サイズ適応的、仮説テストフレームワークを導入する。
統計的パリティ差に対して中央限の結果が証明され、解析的信頼区間と、タイプI(偽陽性)エラーがレベル$alpha$で保証されるウォルド試験が導かれる。
小さな交叉群の長い尾に対して、完全ベイズ的ディリクレ・マルチノミカル推定器を導出する。
論文 参考訳(メタデータ) (2025-06-12T11:22:09Z) - On the Effect of Sampling Diversity in Scaling LLM Inference [57.31028064284527]
大規模言語モデル(LLM)のスケーリング推論は、パフォーマンス向上の鍵となる。
解の精度と応答の有意な多様性の関係から,スケーリング推論における急激な多様性の効果を体系的に研究した。
また,Best-of-N$選択後の有意義な多様なプロンプトから生成した応答は,定常的なプロンプトから生成した応答よりも有意に低い値を示した。
論文 参考訳(メタデータ) (2025-02-16T07:37:58Z) - Adversarial Robustness of VAEs across Intersectional Subgroups [4.420073761023326]
可変オートエンコーダ (VAEs) は, 決定論的AEよりも逆方向の摂動に強い抵抗を示す。
本研究は,非標的敵攻撃に対するVAEの堅牢性を評価する。
論文 参考訳(メタデータ) (2024-07-04T11:53:51Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Learning Informative Representation for Fairness-aware Multivariate
Time-series Forecasting: A Group-based Perspective [50.093280002375984]
多変量時系列予測モデル(MTS)では変数間の性能不公平性が広く存在する。
フェアネスを意識したMTS予測のための新しいフレームワークであるFairForを提案する。
論文 参考訳(メタデータ) (2023-01-27T04:54:12Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。