論文の概要: General Phrase Debiaser: Debiasing Masked Language Models at a
Multi-Token Level
- arxiv url: http://arxiv.org/abs/2311.13892v3
- Date: Thu, 25 Jan 2024 15:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 17:39:04.587509
- Title: General Phrase Debiaser: Debiasing Masked Language Models at a
Multi-Token Level
- Title(参考訳): General Phrase Debiaser:マルチトークンレベルでのマスク言語モデルのデバイアス
- Authors: Bingkang Shi, Xiaodan Zhang, Dehan Kong, Yulei Wu, Zongzhen Liu,
Honglei Lyu, Longtao Huang
- Abstract要約: 我々はtextbf General Phrase Debiaser と呼ばれる自動マルチトークンデバイアスパイプラインを提案する。
具体的には,ウィキペディアページからステレオタイプ句を生成するテキストフレーズフィルタのステージから構成する。
後者はモデルのバイアスをトリガーするプロンプトを検索し、デバイアスに使用する。
- 参考スコア(独自算出の注目度): 12.014504621547765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The social biases and unwelcome stereotypes revealed by pretrained language
models are becoming obstacles to their application. Compared to numerous
debiasing methods targeting word level, there has been relatively less
attention on biases present at phrase level, limiting the performance of
debiasing in discipline domains. In this paper, we propose an automatic
multi-token debiasing pipeline called \textbf{General Phrase Debiaser}, which
is capable of mitigating phrase-level biases in masked language models.
Specifically, our method consists of a \textit{phrase filter stage} that
generates stereotypical phrases from Wikipedia pages as well as a \textit{model
debias stage} that can debias models at the multi-token level to tackle bias
challenges on phrases. The latter searches for prompts that trigger model's
bias, and then uses them for debiasing. State-of-the-art results on standard
datasets and metrics show that our approach can significantly reduce gender
biases on both career and multiple disciplines, across models with varying
parameter sizes.
- Abstract(参考訳): 事前訓練された言語モデルによって明らかになった社会的バイアスと不適切なステレオタイプは、彼らの応用の障害になりつつある。
単語レベルを対象とする多くのデバイアス化手法と比較して、フレーズレベルに存在するバイアスに対する関心は比較的少なく、規律領域におけるデバイアス化のパフォーマンスが制限されている。
本稿では,マスキング言語モデルにおける句レベルの偏りを緩和できる「textbf{ General Phrase Debiaser}」と呼ばれる自動多言語脱バイアスパイプラインを提案する。
具体的には、wikipediaページから定型的なフレーズを生成する \textit{phrase filter stage} と、複数トケンレベルでモデルをデバイアスし、フレーズのバイアス課題に取り組む \textit{model debias stage} からなる。
後者はモデルのバイアスをトリガーするプロンプトを検索し、デバイアスに使用する。
標準データセットとメトリクスの最先端結果から、我々のアプローチは、様々なパラメータサイズを持つモデル間で、キャリアと複数の規律の両方における性別バイアスを著しく低減できることを示している。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization [13.773597081543185]
本稿では,組込みのクラスワイドな分散に基づく新しいデバイアス正規化手法を提案する。
提案手法は属性ラベルを必要とせず,属性をターゲットとせず,既存のデバイアス手法の欠点に対処する。
論文 参考訳(メタデータ) (2024-09-29T03:56:50Z) - From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models [75.04426753720553]
開集合におけるバイアスを特定し,定量化し,説明するための枠組みを提案する。
このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。
このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。
論文 参考訳(メタデータ) (2024-08-29T16:51:07Z) - Say My Name: a Model's Bias Discovery Framework [18.887645415907166]
Say My Name'(SaMyNa)は、ディープモデル内のバイアスを意味的に識別する最初のツールです。
既存の方法とは異なり、私たちのアプローチはモデルによって学習されたバイアスに焦点を当てています。
本手法は,タスク関連情報をアンタングル化し,偏見を解析するためのツールとして提案する。
論文 参考訳(メタデータ) (2024-08-18T18:50:59Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。
オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-05-23T19:57:15Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification [36.361778457307636]
ディープテキスト分類モデルは、特定の人口統計グループの著者によって書かれたテキストのバイアス結果を生成することができます。
本論文では,異なる人口集団の異なるテキスト分類タスクに暗黙のバイアスが存在することを示す。
そして、暗黙のバイアスの知識を深めるために、学習に基づく解釈方法を構築します。
論文 参考訳(メタデータ) (2021-05-06T16:17:38Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。