論文の概要: Biased or Flawed? Mitigating Stereotypes in Generative Language Models by Addressing Task-Specific Flaws
- arxiv url: http://arxiv.org/abs/2412.11414v1
- Date: Mon, 16 Dec 2024 03:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:11.061871
- Title: Biased or Flawed? Mitigating Stereotypes in Generative Language Models by Addressing Task-Specific Flaws
- Title(参考訳): バイアスか欠陥か?タスク特異的な欠陥に対処して生成言語モデルにおけるステレオタイプを誤用する
- Authors: Akshita Jha, Sanchit Kabra, Chandan K. Reddy,
- Abstract要約: 生成言語モデルは、しばしば出力の社会的バイアスを反映し増幅します。
生成モデルにおいて観測されたステレオタイプを暗黙的に緩和する目的のステレオタイプ緩和フレームワークを提案する。
複数の次元にわたるステレオタイプ出力を60%以上削減する。
- 参考スコア(独自算出の注目度): 12.559028963968247
- License:
- Abstract: Recent studies have shown that generative language models often reflect and amplify societal biases in their outputs. However, these studies frequently conflate observed biases with other task-specific shortcomings, such as comprehension failure. For example, when a model misinterprets a text and produces a response that reinforces a stereotype, it becomes difficult to determine whether the issue arises from inherent bias or from a misunderstanding of the given content. In this paper, we conduct a multi-faceted evaluation that distinctly disentangles bias from flaws within the reading comprehension task. We propose a targeted stereotype mitigation framework that implicitly mitigates observed stereotypes in generative models through instruction-tuning on general-purpose datasets. We reduce stereotypical outputs by over 60% across multiple dimensions -- including nationality, age, gender, disability, and physical appearance -- by addressing comprehension-based failures, and without relying on explicit debiasing techniques. We evaluate several state-of-the-art generative models to demonstrate the effectiveness of our approach while maintaining the overall utility. Our findings highlight the need to critically disentangle the concept of `bias' from other types of errors to build more targeted and effective mitigation strategies. CONTENT WARNING: Some examples contain offensive stereotypes.
- Abstract(参考訳): 近年の研究では、生成言語モデルはアウトプットの社会的バイアスを反映し増幅することが多いことが示されている。
しかしながら、これらの研究は、観察されたバイアスを、理解障害など他のタスク固有の欠点と分割することが多い。
例えば、モデルがテキストを誤って解釈し、ステレオタイプを補強する応答を生成すると、その問題が固有のバイアスから生じるのか、あるいは与えられたコンテンツの誤解から生じるのかを判断することは困難になる。
本稿では,読解作業中の欠陥から偏見をはっきりと切り離す多面的評価を行う。
汎用データセットの命令チューニングにより、生成モデルにおいて観測されたステレオタイプを暗黙的に緩和する目的のステレオタイプ緩和フレームワークを提案する。
我々は、理解に基づく失敗に対処し、明示的な嫌悪のテクニックに頼ることなく、複数の次元(国籍、年齢、性別、障害、身体的外観など)にわたるステレオタイプアウトプットを60%以上削減する。
提案手法の有効性を実証するために,本手法の総合的有用性を維持しつつ,いくつかの最先端生成モデルを評価した。
以上の結果から,「バイアス」の概念を他の種類の誤りから批判的に切り離して,より標的的かつ効果的な緩和戦略を構築する必要性が浮き彫りになった。
Content WARNING: 攻撃的なステレオタイプを含むいくつかの例。
関連論文リスト
- Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Debiasing Multimodal Sarcasm Detection with Contrastive Learning [5.43710908542843]
コントラスト学習を伴うマルチモーダルサルカズム検出フレームワークを提案する。
特に,非類似な単語バイアスを持つ正のサンプルを構築するために,まず反実データ拡張を設計する。
我々は、モデルが堅牢なタスク関連特徴を学習できるようにするために、適応型偏りの対照的な学習メカニズムを考案する。
論文 参考訳(メタデータ) (2023-12-16T16:14:50Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。