論文の概要: BiAxisAudit: A Novel Framework to Evaluate LLM Bias Across Prompt Sensitivity and Response-Layer Divergence
- arxiv url: http://arxiv.org/abs/2605.09041v1
- Date: Sat, 09 May 2026 16:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.038882
- Title: BiAxisAudit: A Novel Framework to Evaluate LLM Bias Across Prompt Sensitivity and Response-Layer Divergence
- Title(参考訳): BiAxisAudit: 急激な感度と応答層多様性を横断するLLMバイアスを評価するための新しいフレームワーク
- Authors: Jialing Gan, Junhao Dong, Songze Li,
- Abstract要約: 大規模言語モデルのバイアス監査は、EU AI Actなどのガバナンスフレームワーク内で運用されている。
このプロトコルでは、各バイアススコアを2つの軸上での信頼性推定とともに報告する。
- 参考スコア(独自算出の注目度): 22.315546054051143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bias audits of large language models now operate within governance frameworks such as the EU AI Act, making benchmark reliability a security concern in its own right. Many current benchmarks, however, collapse bias into a single scalar from one prompt format and one surface label. This design misses two failure modes that can be exploited without changing model weights. Across prompts, meaning-preserving format changes shift bias endorsement by more than $0.7$ on a fixed statement pool. Within a response, the discrete Selection and free-text Elaboration can take opposing stances, so an apparently clean aggregate may hide substantial internal inconsistency (a ``cancellation trap''). Selection-only and elaboration-only rankings are therefore nearly uncorrelated across eight LLMs (Spearman $ρ= 0.238$, $p = 0.570$): LLaMA3-70B ranks in the middle under selection-only scoring but highest under elaboration-only scoring on the same responses. We introduce \textsc{BiAxisAudit}, a protocol that reports each bias score together with a reliability estimate on two orthogonal axes. The across-prompt axis evaluates each statement under a factorial grid of task format, perspective, role, and sentiment, treating bias as a distribution rather than a point estimate. The within-response axis uses Split Coding to recover Selection and Elaboration as separate signals, measured by the Inconsistency Rate and Divergence Net Imbalance. Across eight LLMs with $80{,}200$ coded responses each, task format alone explains as much variance as model choice; $63.6\%$ of pooled bias signals (up to $85.2\%$ per model) appear in only one coding layer, and prompt-dimension interactions exceed main effects. The instrument also separates real bias reductions from apparent reductions caused by cross-layer redistribution: some prompt configurations reduce both BER and IR, whereas others suppress only selection-layer bias.
- Abstract(参考訳): 大規模な言語モデルのバイアス監査は、EU AI Actのようなガバナンスフレームワーク内で運用されている。
しかし、現在のベンチマークでは、1つのプロンプトフォーマットと1つのサーフェスラベルから1つのスカラーに崩壊バイアスが設定されている。
この設計では、モデルの重みを変えることなく活用できる2つの障害モードを見逃している。
アクロスプロンプトにより、意味保存フォーマットは、固定されたステートメントプールで0.7ドル以上のバイアス支持をシフトさせる。
応答内では、離散的な選択と自由テキストの作業は反対の姿勢を取ることができるため、明らかにクリーンな集約は、実質的な内部の不整合を隠蔽する可能性がある(‘カンセレーショントラップ’)。
したがって、選抜のみと選抜のみのランキングは8つのLDM(Spearman $ρ = 0.238$, $p = 0.570$): LLaMA3-70Bは選抜のみのスコアで、選抜のみのスコアでは最高である。
本稿では,2つの直交軸上の信頼性推定値とともに,各バイアススコアを報告するプロトコルである‘textsc{BiAxisAudit} を紹介する。
クロスプロンプト軸は、各ステートメントをタスク形式、視点、役割、感情の因子的グリッドの下で評価し、偏差を点推定ではなく分布として扱う。
応答内軸はスプリット符号化を用いて、不整合率と分散ネット不均衡によって測定された分離信号として選択と協調を復元する。
80{,}200$の符号付き応答を持つ8つのLCMにおいて、タスク形式だけでモデル選択と同じくらいのばらつきを説明できる。
この装置はまた、実際のバイアス低減を、層間再分配による明らかな低減と区別する:いくつかの急進的な構成はBERとIRの両方を減少させ、他方は選択層バイアスのみを抑制する。
関連論文リスト
- CogBias: Measuring and Mitigating Cognitive Bias in Large Language Models [8.81733256907103]
大規模言語モデル(LLM)は、高い意思決定コンテキストにますますデプロイされている。
認知バイアスは, 判断, 情報処理, 社会的, 反応の4種類の認知バイアスのすべてに対して, 体系的に現れることを示す。
活性化ステアリングを用いてバイアスの挙動を変調し,26~32%のバイアススコアの低減を実現した。
論文 参考訳(メタデータ) (2026-04-01T20:22:14Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Quantifying and Mitigating Selection Bias in LLMs: A Transferable LoRA Fine-Tuning and Efficient Majority Voting Approach [13.829059542429876]
大規模言語モデル(LLM)の性能評価手法として,MCQ (Multiple Choice Questioning) が広く用いられている。
LLMはMCQタスクにおいて選択バイアスを示し、その選択は内容よりも答えの位置やオプション記号などの要因に影響される。
論文 参考訳(メタデータ) (2025-11-17T21:31:37Z) - SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models [0.27309692684728604]
大規模言語モデル(LLM)は、選択肢の位置やラベルに固有のバイアスを生かして、複数の選択タスクの膨らませたスコアを達成できる。
本研究では,データセットに依存しない方法で選択バイアスを計測・緩和するSCOPEを提案する。
論文 参考訳(メタデータ) (2025-07-24T08:28:17Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding [52.1068936424622]
治療が介入によって設定された場合、対象変数$Y$に対して、予測因果効果$E[Y|do(X)]$を推定する問題を考える。
選択バイアスや欠点のない設定では、$E[Y|do(X)] = E[Y|X]$ となる。
選択バイアスとコンバウンディングの両方を組み込んだフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T13:43:37Z) - Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models [15.53216696218776]
本稿では,大きな言語モデル(LLM)において,曖昧な比較プロンプトが提供される場合のバイアスの発生メカニズムについて検討する。
本稿では,LLMの特定の層にバイアスを局所化する手法である$textttATLAS$を提案する。
論文 参考訳(メタデータ) (2024-10-29T20:15:56Z) - A Simple yet Effective Self-Debiasing Framework for Transformer Models [49.09053367249642]
現在のTransformerベースの自然言語理解(NLU)モデルは、データセットバイアスに大きく依存している。
本稿では,トランスフォーマーベースNLUモデルのための簡易かつ効果的な自己退化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-02T20:31:58Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。