論文の概要: BiasLab: A Multilingual, Dual-Framing Framework for Robust Measurement of Output-Level Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.06861v1
- Date: Sun, 11 Jan 2026 11:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.03593
- Title: BiasLab: A Multilingual, Dual-Framing Framework for Robust Measurement of Output-Level Bias in Large Language Models
- Title(参考訳): BiasLab: 大規模言語モデルにおける出力レベルバイアスのロバスト計測のための多言語デュアルフラーミングフレームワーク
- Authors: William Guey, Wei Zhang, Pei-Luen Patrick Rau, Pierrick Bougault, Vitor D. de Moura, Bertan Ucar, Jose O. Gomes,
- Abstract要約: 本稿では,出力レベル(外部)バイアスの定量化を目的とした,オープンソースのモデルに依存しない評価フレームワークであるBiasLabを紹介する。
この枠組みは、人口統計学、文化学、政治学、地政学などの様々なバイアス軸の評価をサポートする。
- 参考スコア(独自算出の注目度): 3.643198597030366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in high-stakes contexts where their outputs influence real-world decisions. However, evaluating bias in LLM outputs remains methodologically challenging due to sensitivity to prompt wording, limited multilingual coverage, and the lack of standardized metrics that enable reliable comparison across models. This paper introduces BiasLab, an open-source, model-agnostic evaluation framework for quantifying output-level (extrinsic) bias through a multilingual, robustness-oriented experimental design. BiasLab constructs mirrored probe pairs under a strict dual-framing scheme: an affirmative assertion favoring Target A and a reverse assertion obtained by deterministic target substitution favoring Target B, while preserving identical linguistic structure. To reduce dependence on prompt templates, BiasLab performs repeated evaluation under randomized instructional wrappers and enforces a fixed-choice Likert response format to maximize comparability across models and languages. Responses are normalized into agreement labels using an LLM-based judge, aligned for polarity consistency across framings, and aggregated into quantitative bias indicators with descriptive statistics including effect sizes and neutrality rates. The framework supports evaluation across diverse bias axes, including demographic, cultural, political, and geopolitical topics, and produces reproducible artifacts such as structured reports and comparative visualizations. BiasLab contributes a standardized methodology for cross-lingual and framing-sensitive bias measurement that complements intrinsic and dataset-based audits, enabling researchers and institutions to benchmark robustness and make better-informed deployment decisions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アウトプットが実世界の決定に影響を及ぼすような高い状況において、ますます多くデプロイされている。
しかし、LLM出力におけるバイアスの評価は、単語の入力の感度、多言語範囲の制限、モデル間の信頼性比較を可能にする標準化されたメトリクスの欠如により、方法論的に難しいままである。
本稿では,多言語,ロバスト性指向の実験設計を通じて,出力レベル(外在性)バイアスを定量化するための,オープンソースのモデルに依存しない評価フレームワークであるBiasLabを紹介する。
BiasLabは、厳密な二重フレーミングスキームの下で、ターゲットAを支持する肯定的なアサーションと、ターゲットBを支持する決定論的ターゲット置換によって得られる逆アサーションを、同一の言語構造を維持しながら構成する。
プロンプトテンプレートへの依存を減らすため、BiasLabはランダム化された命令ラッパーの下で繰り返し評価を行い、モデルと言語間の互換性を最大化するために固定選択のLikert応答フォーマットを適用している。
応答は、LCMベースの判断器を使用して合意ラベルに正規化され、フレーミング間の極性一貫性に整列し、効果の大きさや中立性率を含む記述的な統計を伴う定量的バイアス指標に集約される。
このフレームワークは、人口統計学、文化学、政治学、地政学のトピックを含む様々なバイアス軸の評価をサポートし、構造化されたレポートや比較視覚化のような再現可能なアーティファクトを生成する。
BiasLabは、言語横断およびフレーミングに敏感なバイアス測定のための標準化された方法論を提供し、本質的およびデータセットベースの監査を補完する。
関連論文リスト
- BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses [32.58830706120845]
大規模言語モデル(LLM)のバイアス緩和手法に関する既存の研究は、様々なベースラインとメトリクスを用いてバイアス低減性能を評価する。
BiasFreeBenchは8つの主流バイアス緩和手法を包括的に比較した経験的ベンチマークである。
我々は、バイアス軽減研究のための統合テストベッドを確立することを目的として、我々のベンチマークを公開します。
論文 参考訳(メタデータ) (2025-09-30T19:56:54Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。