論文の概要: Stereotype Detection as a Catalyst for Enhanced Bias Detection: A Multi-Task Learning Approach
- arxiv url: http://arxiv.org/abs/2507.01715v1
- Date: Wed, 02 Jul 2025 13:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.267713
- Title: Stereotype Detection as a Catalyst for Enhanced Bias Detection: A Multi-Task Learning Approach
- Title(参考訳): バイアス検出のための触媒としてのステレオタイプ検出:マルチタスク学習アプローチ
- Authors: Aditya Tomar, Rudra Murthy, Pushpak Bhattacharyya,
- Abstract要約: 言語モデルにおけるバイアスやステレオタイプは、特にコンテンツモデレーションや意思決定のようなセンシティブな領域で害をもたらす可能性がある。
本稿では,これらの課題を共同学習することでモデル性能を高める方法を探ることで,バイアスとステレオタイプ検出に対処する。
StereoBiasは、宗教、性別、社会経済的地位、人種、職業など5つのカテゴリーにまたがってバイアスとステレオタイプ検出をラベル付けしたユニークなデータセットである。
- 参考スコア(独自算出の注目度): 36.64093052736432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bias and stereotypes in language models can cause harm, especially in sensitive areas like content moderation and decision-making. This paper addresses bias and stereotype detection by exploring how jointly learning these tasks enhances model performance. We introduce StereoBias, a unique dataset labeled for bias and stereotype detection across five categories: religion, gender, socio-economic status, race, profession, and others, enabling a deeper study of their relationship. Our experiments compare encoder-only models and fine-tuned decoder-only models using QLoRA. While encoder-only models perform well, decoder-only models also show competitive results. Crucially, joint training on bias and stereotype detection significantly improves bias detection compared to training them separately. Additional experiments with sentiment analysis confirm that the improvements stem from the connection between bias and stereotypes, not multi-task learning alone. These findings highlight the value of leveraging stereotype information to build fairer and more effective AI systems.
- Abstract(参考訳): 言語モデルにおけるバイアスやステレオタイプは、特にコンテンツモデレーションや意思決定のようなセンシティブな領域で害をもたらす可能性がある。
本稿では,これらの課題を共同学習することでモデル性能を高める方法を探ることで,バイアスとステレオタイプ検出に対処する。
StereoBiasは、宗教、性別、社会経済的地位、人種、職業など5つのカテゴリーにまたがってバイアスとステレオタイプ検出をラベル付けしたユニークなデータセットである。
実験では,QLoRAを用いたエンコーダのみのモデルと微調整デコーダのみのモデルを比較した。
エンコーダのみのモデルはよく機能するが、デコーダのみのモデルは競合する結果を示す。
重要なことは、バイアスとステレオタイプ検出に関する共同トレーニングは、別々にトレーニングするよりもバイアス検出を著しく改善する。
感情分析による追加実験では、改善はマルチタスク学習だけでは無く、バイアスとステレオタイプの関係に起因することが確認された。
これらの知見は、より公平で効果的なAIシステムを構築するためにステレオタイプ情報を活用する価値を強調している。
関連論文リスト
- Detecting Stereotypes and Anti-stereotypes the Correct Way Using Social Psychological Underpinnings [41.09752906121257]
本研究では, ステレオタイプ, アンチステレオタイプ, ステレオタイプバイアス, バイアスを区別し, 正確に定義する。
10B未満のパラメータを持つ推論のための言語モデルは、アンチステレオタイプを検出する際に混乱することが多いことを実証する。
論文 参考訳(メタデータ) (2025-04-04T11:14:38Z) - Less can be more: representational vs. stereotypical gender bias in facial expression recognition [3.9698529891342207]
機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。
本稿では、データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。
ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。
論文 参考訳(メタデータ) (2024-06-25T09:26:49Z) - Stereotype Detection in LLMs: A Multiclass, Explainable, and Benchmark-Driven Approach [4.908389661988191]
本稿では, 性別, 人種, 職業, 宗教, その他のステレオタイプにまたがる51,867の事例からなるMulti-Grain Stereotype (MGS)データセットを提案する。
我々は、さまざまな機械学習アプローチを評価し、異なるアーキテクチャと大きさのベースラインと微調整言語モデルを確立する。
我々は、モデルが学習したパターンがステレオタイプに関する人間の直観と一致するかどうかを評価するために、SHAP、LIME、BertVizを含む説明可能なAI(XAI)ツールを採用する。
論文 参考訳(メタデータ) (2024-04-02T09:31:32Z) - Improving Bias Mitigation through Bias Experts in Natural Language
Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。
提案手法は補助モデルのバイアス識別能力を向上させる。
論文 参考訳(メタデータ) (2023-12-06T16:15:00Z) - Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文 参考訳(メタデータ) (2023-11-23T17:47:14Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。