論文の概要: Equal Access, Unequal Interaction: A Counterfactual Audit of LLM Fairness
- arxiv url: http://arxiv.org/abs/2602.02932v1
- Date: Tue, 03 Feb 2026 00:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.149848
- Title: Equal Access, Unequal Interaction: A Counterfactual Audit of LLM Fairness
- Title(参考訳): 平等アクセスと不平等相互作用:LLMフェアネスの非現実的監査
- Authors: Alireza Amiri-Margavi, Arshia Gharagozlou, Amin Gholami Davodi, Seyed Pouyan Mousavi Davoudi, Hamidreza Hasani Balyani,
- Abstract要約: アクセスが許可された後の人口統計的アイデンティティにおいて,大きな言語モデルがトーン,不確実性,言語フレーミングにおいてどのように異なるかを検討する。
相互作用品質における系統的、モデル固有の相違を観察する。
これらの結果は,アクセスが等しい場合でも,公平性の違いが相互作用レベルで持続可能であることを示す。
- 参考スコア(独自算出の注目度): 0.8699280339422538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work on fairness in large language models (LLMs) has primarily focused on access-level behaviors such as refusals and safety filtering. However, equitable access does not ensure equitable interaction quality once a response is provided. In this paper, we conduct a controlled fairness audit examining how LLMs differ in tone, uncertainty, and linguistic framing across demographic identities after access is granted. Using a counterfactual prompt design, we evaluate GPT-4 and LLaMA-3.1-70B on career advice tasks while varying identity attributes along age, gender, and nationality. We assess access fairness through refusal analysis and measure interaction quality using automated linguistic metrics, including sentiment, politeness, and hedging. Identity-conditioned differences are evaluated using paired statistical tests. Both models exhibit zero refusal rates across all identities, indicating uniform access. Nevertheless, we observe systematic, model-specific disparities in interaction quality: GPT-4 expresses significantly higher hedging toward younger male users, while LLaMA exhibits broader sentiment variation across identity groups. These results show that fairness disparities can persist at the interaction level even when access is equal, motivating evaluation beyond refusal-based audits.
- Abstract(参考訳): 大規模言語モデル(LLM)における公平性に関する以前の研究は、主に拒絶や安全フィルタリングといったアクセスレベルの振る舞いに焦点を当てていた。
しかし、公平なアクセスは、応答が提供されると、公平な相互作用品質を保証しない。
本稿では, LLMの音色, 不確実性, 言語的フレーミングが, アクセスが許可された後の個体群間でどのように異なるか, 制御された公正度検査を行う。
GPT-4 と LLaMA-3.1-70B は, 年齢, 性別, 国籍に応じて, 個人属性を変化させながら, キャリアアドバイスタスクにおいて評価する。
我々は、拒絶分析によるアクセスフェアネスを評価し、感情、丁寧さ、ヘッジを含む自動言語指標を用いて相互作用品質を測定する。
同一性条件付き差分をペア統計テストを用いて評価する。
どちらのモデルも全てのIDに対してゼロの拒絶率を示し、一様アクセスを示す。
GPT-4は若年男性ユーザに対して有意に高いヘッジを示し,LLaMAは同一性グループにまたがって幅広い感情変化を示す。
これらの結果から,アクセスが等しくても,公平さの相違が相互作用レベルで持続できることが示唆された。
関連論文リスト
- Partial Identification Approach to Counterfactual Fairness Assessment [50.88100567472179]
未知の対実的公正度尺度を高い信頼性で有界化するためのベイズ的アプローチを導入する。
以上の結果から、人種をアフリカ系アメリカ人に転換する際のCompASスコアに対する肯定的な(不快な)効果と、若年から高齢に移行する際の否定的な(直接的な因果関係)効果が明らかとなった。
論文 参考訳(メタデータ) (2025-09-30T18:35:08Z) - Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [24.54292750583169]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiSCo(Fine-fine Semantic Comparison)を提案する。
モデル出力を意味的に異なるクレームに分解し、グループ間およびグループ間の類似性を比較するために統計的仮説テストを適用する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach [53.824673312331626]
Implicit Demography Inference (IDI)モジュールは、k平均クラスタリングを用いて、音声感情認識(SER)におけるバイアスを軽減する
実験により、擬似ラベルIDIはサブグループの格差を減らし、フェアネスの指標を28%以上改善することが示された。
教師なしのIDIは、SERのパフォーマンスが3.6%未満のフェアネス指標を4.6%以上改善する。
論文 参考訳(メタデータ) (2025-05-20T14:50:44Z) - Refusal as Silence: Gendered Disparities in Vision-Language Model Responses [0.4199844472131921]
本研究では,反現実的ペルソナデザインによる社会技術的成果としての拒絶について検討する。
その結果,トランスジェンダーと非バイナリペルソナは,非有害な文脈においても,拒絶率を著しく高めていることがわかった。
論文 参考訳(メタデータ) (2024-06-12T13:52:30Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。