論文の概要: The GUS Framework: Benchmarking Social Bias Classification with Discriminative (Encoder-Only) and Generative (Decoder-Only) Language Models
- arxiv url: http://arxiv.org/abs/2410.08388v3
- Date: Sun, 23 Feb 2025 17:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:50:22.798428
- Title: The GUS Framework: Benchmarking Social Bias Classification with Discriminative (Encoder-Only) and Generative (Decoder-Only) Language Models
- Title(参考訳): GUSフレームワーク:識別型(エンコーダのみ)および生成型(デコーダのみ)言語モデルによるソーシャルバイアス分類のベンチマーク
- Authors: Maximus Powers, Umang Mavani, Harshitha Reddy Jonala, Ansh Tiwari, Hua Wei,
- Abstract要約: 一般化、不公平、ステレオタイプ(GUSフレームワーク)は、社会的偏見の根底にある重要な言語的要素であると考えられている。
GUSフレームワークは、倫理的基準を維持するために人間が検証する包括的な合成データセットを作成するために、半自動化されたアプローチを採用している。
本手法は,識別的(エンコーダのみ)モデルと生成的(自己回帰的)大規模言語モデルを組み合わせることで,テキスト中のバイアスのあるエンティティを識別する。
- 参考スコア(独自算出の注目度): 2.2162879952427343
- License:
- Abstract: The detection of social bias in text is a critical challenge, particularly due to the limitations of binary classification methods. These methods often oversimplify nuanced biases, leading to high emotional impact when content is misclassified as either "biased" or "fair." To address these shortcomings, we propose a more nuanced framework that focuses on three key linguistic components underlying social bias: Generalizations, Unfairness, and Stereotypes (the GUS framework). The GUS framework employs a semi-automated approach to create a comprehensive synthetic dataset, which is then verified by humans to maintain ethical standards. This dataset enables robust multi-label token classification. Our methodology, which combines discriminative (encoder-only) models and generative (auto-regressive large language models), identifies biased entities in text. Through extensive experiments, we demonstrate that encoder-only models are effective for this complex task, often outperforming state-of-the-art methods, both in terms of macro and entity-wise F1-score and Hamming loss. These findings can guide the choice of model for different use cases, highlighting the GUS framework's effectiveness in capturing explicit and implicit biases across diverse contexts, and offering a pathway for future research and applications in various fields.
- Abstract(参考訳): テキストにおける社会的偏見の検出は、特に二分分類法の限界のため、重要な課題である。
これらの方法は、しばしばニュアンスバイアスを過度に単純化し、コンテンツが「バイアス」または「フェア」と誤分類されたときに高い感情的な影響をもたらす。
これらの欠点に対処するために,一般化,不公平,ステレオタイプ(GUSフレームワーク)という,社会的バイアスの根底にある3つの重要な言語的要素に焦点を当てた,より曖昧な枠組みを提案する。
GUSフレームワークは、総合的な合成データセットを作成するために半自動化されたアプローチを採用し、倫理的基準を維持するために人間が検証する。
このデータセットは堅牢なマルチラベルトークン分類を可能にする。
本手法は,識別的(エンコーダのみ)モデルと生成的(自己回帰的)大規模言語モデルを組み合わせることで,テキスト中のバイアスのあるエンティティを同定する。
大規模な実験を通じて,エンコーダのみのモデルがこの複雑なタスクに有効であることを示す。
これらの発見は、さまざまなユースケースに対するモデル選択のガイドとなり、さまざまなコンテキストにまたがる明示的および暗黙的なバイアスをキャプチャするGUSフレームワークの有効性を強調し、様々な分野における将来の研究と応用のための経路を提供する。
関連論文リスト
- Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation [3.328297368052458]
LLMを含むNLPモデルを用いて,医療カリキュラムのバイアス検出に取り組む。
大規模コーパスからの偏見を医学専門家が注釈した4,105点の抜粋を含む金標準データセットで評価した。
論文 参考訳(メタデータ) (2024-09-11T17:10:20Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - BEADs: Bias Evaluation Across Domains [9.19312529999677]
Bias Evaluations Across Domains BEADsデータセットは、幅広いNLPタスクをサポートするように設計されています。
本論文の重要な焦点は,GPT4でアノテートされたゴールドラベルデータセットである。
この結果から,BEADは,このデータセットを微調整した場合に,多くのバイアスを効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T16:18:30Z) - Leveraging Biases in Large Language Models: "bias-kNN'' for Effective
Few-Shot Learning [36.739829839357995]
本研究では, バイアスkNN'という新しい手法を紹介する。
このアプローチはバイアスのある出力を生かし、それらをkNNの主要な特徴として利用し、金のラベルを補足する。
多様なドメインテキスト分類データセットと異なるGPT-2モデルサイズにまたがる包括的評価は、バイアス-kNN'法の適用性と有効性を示している。
論文 参考訳(メタデータ) (2024-01-18T08:05:45Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Soft-prompt Tuning for Large Language Models to Evaluate Bias [0.03141085922386211]
ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
論文 参考訳(メタデータ) (2023-06-07T19:11:25Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。