論文の概要: Textual Data Bias Detection and Mitigation -- An Extensible Pipeline with Experimental Evaluation
- arxiv url: http://arxiv.org/abs/2512.10734v2
- Date: Fri, 12 Dec 2025 08:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.198134
- Title: Textual Data Bias Detection and Mitigation -- An Extensible Pipeline with Experimental Evaluation
- Title(参考訳): テキストデータバイアスの検出と緩和 -実験的評価による拡張可能なパイプライン-
- Authors: Rebekka Görge, Sujan Sai Gannamaneni, Tabea Naeven, Hammam Abdelwahab, Héctor Allende-Cid, Armin B. Cremers, Lennard Helmer, Michael Mock, Anna Schmitz, Songkai Xue, Elif Yildirir, Maximilian Poretschkin, Stefan Wrobel,
- Abstract要約: 欧州AI法は、データ内の保護されたグループに対するバイアスを特定し緩和することを要求する。
4つの成分からなる包括的データバイアス検出と緩和パイプラインを提案する。
テキストデータセットにおける表現バイアスと(明示的な)ステレオタイプを効果的に削減する。
この評価結果から, 偏差データに微調整したLCMでは, バイアスベンチマークの性能が常に向上していないことが明らかとなった。
- 参考スコア(独自算出の注目度): 7.217310710037882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual data used to train large language models (LLMs) exhibits multifaceted bias manifestations encompassing harmful language and skewed demographic distributions. Regulations such as the European AI Act require identifying and mitigating biases against protected groups in data, with the ultimate goal of preventing unfair model outputs. However, practical guidance and operationalization are lacking. We propose a comprehensive data bias detection and mitigation pipeline comprising four components that address two data bias types, namely representation bias and (explicit) stereotypes for a configurable sensitive attribute. First, we leverage LLM-generated word lists created based on quality criteria to detect relevant group labels. Second, representation bias is quantified using the Demographic Representation Score. Third, we detect and mitigate stereotypes using sociolinguistically informed filtering. Finally, we compensate representation bias through Grammar- and Context-Aware Counterfactual Data Augmentation. We conduct a two-fold evaluation using the examples of gender, religion and age. First, the effectiveness of each individual component on data debiasing is evaluated through human validation and baseline comparison. The findings demonstrate that we successfully reduce representation bias and (explicit) stereotypes in a text dataset. Second, the effect of data debiasing on model bias reduction is evaluated by bias benchmarking of several models (0.6B-8B parameters), fine-tuned on the debiased text dataset. This evaluation reveals that LLMs fine-tuned on debiased data do not consistently show improved performance on bias benchmarks, exposing critical gaps in current evaluation methodologies and highlighting the need for targeted data manipulation to address manifested model bias.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練に使用されるテキストデータは、有害な言語や歪んだ人口分布を含む多面的バイアスの出現を示す。
欧州AI法(European AI Act)のような規制では、データ内の保護されたグループに対するバイアスの特定と緩和が義務付けられており、最終的な目標は不公平なモデル出力を防ぐことである。
しかし、実際の指導と運用は欠如している。
本稿では,2つのデータバイアスタイプ,すなわち表現バイアスと(明示的な)ステレオタイプに対処する4つのコンポーネントからなる包括的データバイアス検出と緩和パイプラインを提案する。
まず,LLM生成した単語リストを品質基準に基づいて利用し,関連するグループラベルを検出する。
次に、Demographic Representation Scoreを用いて表現バイアスを定量化する。
第3に、社会言語情報フィルタリングを用いてステレオタイプを検出し、緩和する。
最後に,GrammarおよびContext-Aware Counterfactual Data Augmentationを通じて表現バイアスを補償する。
我々は、性別、宗教、年齢の例を用いて2倍の評価を行う。
まず,データデバイアスに対する各コンポーネントの有効性を,人間による検証とベースライン比較により評価する。
その結果,テキストデータセットにおける表現バイアスと(明示的な)ステレオタイプを効果的に削減できることが示唆された。
第二に、モデルバイアス低減に対するデータのデバイアスの影響は、デバイアスされたテキストデータセットに微調整された複数のモデル(0.6B-8Bパラメータ)のバイアスベンチマークによって評価される。
この評価は、偏りのあるデータに微調整を施したLCMは、バイアスベンチマークの性能を常に向上させておらず、現在の評価手法における致命的なギャップを露呈し、明らかなモデルバイアスに対処するためのターゲットデータ操作の必要性を強調している。
関連論文リスト
- debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias [1.3995965887921709]
5つのモデルと6つのデータセットの人口統計バイアスを分析します。
UTKFaceやCelebAといったポートレートデータセットは、バイアス検出に最適なツールです。
我々のデバイアス法は公平さを向上し,ベースラインよりも5~15ポイントの性能向上を実現した。
論文 参考訳(メタデータ) (2024-10-17T02:03:27Z) - COBIAS: Assessing the Contextual Reliability of Bias Benchmarks for Language Models [14.594920595573038]
大規模言語モデル(LLM)は、トレーニング対象のWebデータからバイアスを受け取り、ステレオタイプや偏見を含むことが多い。
これらのバイアスを評価し緩和するための現在の手法はバイアスベンチマークデータセットに依存している。
本稿では,モデルが現れる可能性のあるさまざまなコンテキストを考慮し,モデルロバスト性を偏りのある文に評価するコンテキスト信頼性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T10:46:11Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - NBIAS: A Natural Language Processing Framework for Bias Identification
in Text [9.486702261615166]
テキストデータのバイアスは、データが使用されると歪んだ解釈や結果につながる可能性がある。
偏りのあるデータに基づいて訓練されたアルゴリズムは、あるグループに不公平に影響を及ぼす決定を下すかもしれない。
我々は,データ,コーパス構築,モデル開発,評価レイヤの4つの主要レイヤからなる包括的フレームワーク NBIAS を開発した。
論文 参考訳(メタデータ) (2023-08-03T10:48:30Z) - On Comparing Fair Classifiers under Data Bias [42.43344286660331]
本研究では,データ偏差の変化が公正分類器の精度と公平性に及ぼす影響について検討する。
我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法を示している。
論文 参考訳(メタデータ) (2023-02-12T13:04:46Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。