論文の概要: Invisible Influences: Investigating Implicit Intersectional Biases through Persona Engineering in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.06213v1
- Date: Mon, 16 Mar 2026 15:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.643259
- Title: Invisible Influences: Investigating Implicit Intersectional Biases through Persona Engineering in Large Language Models
- Title(参考訳): 不可視的影響:大規模言語モデルにおけるペルソナ工学による命令間分岐の探索
- Authors: Nandini Arimanda, Achyuth Mukund, Sakthi Balan Muthiah, Rajesh Sharma,
- Abstract要約: 大型言語モデル(LLM)は人間の言語生成に優れるが、しばしば暗黙の交叉バイアスを埋めて増幅する。
既存のバイアス監査は、絶対結合強度を定量化する静的な埋め込みベースのテスト(CEAT、I-WEAT、I-SEAT)に依存している。
本稿では,Bias Amplification Differential and Explainability Score(BADx)を紹介する。
- 参考スコア(独自算出の注目度): 4.145971099162064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel at human-like language generation but often embed and amplify implicit, intersectional biases, especially under persona-driven contexts. Existing bias audits rely on static, embedding-based tests (CEAT, I-WEAT, I-SEAT) that quantify absolute association strengths. We show that they have limitations in capturing dynamic shifts when models adopt social roles. We address this gap by introducing the Bias Amplification Differential and Explainability Score (BADx): a novel, scalable metric that measures persona-induced bias amplification and integrates local explainability insights. BADx comprises three components - differential bias scores (BAD, based on CEAT, I-WEAT, I-SEAT),Persona Sensitivity Index (PSI), and Volatility (Standard Deviation), augmented by LIME-based analysis for emphasizing explainability. This study is divided and performed as two different tasks. Task 1 establishes static bias baselines, and Task 2 applies six persona frames (marginalized and structurally advantaged) to measure BADx, PSI, and volatility. This is studied across five state-of-the-art LLMs (GPT-4o, DeepSeek-R1, LLaMA-4, Claude 4.0 Sonnet and Gemma-3n E4B). Results show persona context significantly modulates bias. GPT-4o exhibits high sensitivity and volatility; DeepSeek-R1 suppresses bias but with erratic volatility; LLaMA-4 maintains low volatility and a stable bias profile with limited amplification; Claude 4.0 Sonnet achieves balanced modulation; and Gemma-3n E4B attains the lowest volatility with moderate amplification. BADx performs better than static methods by revealing context-sensitive biases overlooked in static methods. Our unified method offers a systematic way to detect dynamic implicit intersectional bias in five popular LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のような言語生成において優れているが、特にペルソナ駆動のコンテキスト下では、暗黙の交叉バイアスを埋めて増幅することが多い。
既存のバイアス監査は、絶対結合強度を定量化する静的な埋め込みベースのテスト(CEAT、I-WEAT、I-SEAT)に依存している。
モデルが社会的役割を採用するとき、動的シフトを捉えるのに制限があることが示される。
本稿では,Bias Amplification Differential and Explainability Score (BADx)を導入することで,このギャップに対処する。
BADxは、CEAT、I-WEAT、I-SEATに基づく差分バイアススコア(BAD)、Persona Sensitivity Index(PSI)、Volatility(Standard Deviation)の3つのコンポーネントから構成され、説明可能性を強調するためにLIMEベースの分析によって強化される。
この研究は2つの異なるタスクとして分割され実行されます。
タスク1は静的バイアスベースラインを確立し、タスク2は6つのペルソナフレーム(マージナライズされ、構造的に有利な)を適用して、BADx、PSI、ボラティリティを測定する。
これは5つの最先端LCM(GPT-4o、DeepSeek-R1、LLaMA-4、Claude 4.0 Sonnet、Gemma-3n E4B)で研究されている。
その結果、ペルソナの文脈はバイアスを著しく調節することがわかった。
GPT-4oは高い感度とボラティリティを示し、DeepSeek-R1はバイアスを抑えるが不安定なボラティリティ、LLaMA-4は低ボラティリティと安定なバイアスプロファイルを維持し、Claude 4.0 Sonnetは平衡変調を達成し、Gemma-3n E4Bは適度な増幅で最低ボラティリティを得る。
BADxは静的メソッドで見落とされたコンテキスト依存バイアスを明らかにすることで、静的メソッドよりもパフォーマンスがよい。
我々の統一手法は、5つのLLMにおける動的暗黙交叉バイアスを検出する体系的な方法を提供する。
関連論文リスト
- How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles [46.63622714488747]
共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。
実際には、これは相関した推論パターンと同期された障害として現れます。
ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
論文 参考訳(メタデータ) (2026-04-08T23:32:06Z) - The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training [24.539689177262193]
自然言語で訓練された大規模な言語モデルは、明らかに異方性を示す。
低ビットトレーニングでは、この幾何学は数値的に不安定になる。
この不安定性は、主にコヒーレントなランクワン平均バイアスによって引き起こされることを示す。
論文 参考訳(メタデータ) (2026-03-11T05:59:12Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning [85.20505958752928]
フローベースモデル上での強化ファインチューニング(RFT)は、優先順位調整に不可欠である。
RFTは、過度に最適化された詳細や意味的なミスアライメントのような視覚幻覚をしばしば導入する。
この研究は、なぜ視覚幻覚が生じるのか、どのようにそれらを減らすのかを予備的に探求する。
論文 参考訳(メタデータ) (2026-02-03T11:49:46Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Probability of Differentiation Reveals Brittleness of Homogeneity Bias in GPT-4 [0.0]
LLM(Large Language Models)における均一性バイアス(英語版)とは、ある集団の表現を他と比較して均質化する傾向を指す。
このバイアスを文書化する以前の研究は、主にエンコーダモデルを使用しており、それは必然的にバイアスを導入した可能性がある。
本研究は、エンコーダモデルをバイパスして、モデル出力から均一性バイアスを直接評価する。
論文 参考訳(メタデータ) (2024-07-10T02:56:55Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。