論文の概要: Mitigating Political Bias in Language Models Through Reinforced
Calibration
- arxiv url: http://arxiv.org/abs/2104.14795v1
- Date: Fri, 30 Apr 2021 07:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:52:03.290715
- Title: Mitigating Political Bias in Language Models Through Reinforced
Calibration
- Title(参考訳): 強化校正による言語モデルにおける政治的バイアスの緩和
- Authors: Ruibo Liu, Chenyan Jia, Jason Wei, Guangxuan Xu, Lili Wang, Soroush
Vosoughi
- Abstract要約: GPT-2 世代における政治的偏見を測定する指標について述べる。
生成テキストにおける政治的バイアスを緩和するための強化学習(RL)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.964628305312507
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current large-scale language models can be politically biased as a result of
the data they are trained on, potentially causing serious problems when they
are deployed in real-world settings. In this paper, we describe metrics for
measuring political bias in GPT-2 generation and propose a reinforcement
learning (RL) framework for mitigating political biases in generated text. By
using rewards from word embeddings or a classifier, our RL framework guides
debiased generation without having access to the training data or requiring the
model to be retrained. In empirical experiments on three attributes sensitive
to political bias (gender, location, and topic), our methods reduced bias
according to both our metrics and human evaluation, while maintaining
readability and semantic coherence.
- Abstract(参考訳): 現在の大規模言語モデルは、トレーニングされたデータの結果、政治的に偏りがあり、実際の環境にデプロイされた時に深刻な問題を引き起こす可能性がある。
本稿では,gpt-2世代における政治的バイアスを測定するための指標について述べるとともに,生成テキストにおける政治的バイアスを軽減するための強化学習(rl)フレームワークを提案する。
単語埋め込みや分類器からの報酬を利用することで、我々のRLフレームワークは、トレーニングデータにアクセスしたり、モデルを再訓練する必要なしに、縮退した生成をガイドする。
政治的バイアス(性別,場所,話題)に敏感な3つの属性に関する実証実験では,可読性とセマンティック・コヒーレンスを維持しつつ,指標と人的評価の両方に応じてバイアスを減らした。
関連論文リスト
- Balancing Transparency and Accuracy: A Comparative Analysis of Rule-Based and Deep Learning Models in Political Bias Classification [5.550237524713089]
この研究は、制約のないデータ摂取に対する現代の自己学習システムの感受性を強調している。
両モデルを左利き(CNN)と右利き(FOX)のニュース記事に適用し、元のトレーニングやテストセットを超えたデータ上での有効性を評価する。
深層学習モデルの不透明なアーキテクチャと言語情報に基づくルールベースモデルの透明性を対比する。
論文 参考訳(メタデータ) (2024-11-07T00:09:18Z) - REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。
LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。
複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文 参考訳(メタデータ) (2024-08-18T14:08:31Z) - High Risk of Political Bias in Black Box Emotion Inference Models [0.0]
本稿では、社会科学研究における感情分析(SA)に使用される機械学習モデルにおける政治的バイアスの存在について検討する。
ポーランドの感情分析モデルを用いた偏見調査を行った。
以上の結果から, 人間のラテンダーによるアノテーションは, モデルの予測に政治的偏見を伝播させることが示唆された。
論文 参考訳(メタデータ) (2024-07-18T20:31:07Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of
Conversational Language Models [37.98671828283487]
テキスト表現モデルは、様々な社会的バイアスを示す傾向がある。
最近の研究は、事前訓練された言語モデルにおけるバイアスの測定と緩和に重点を置いている。
RedditBiasは、Redditによる人間の会話をベースとした初めての会話データセットだ。
論文 参考訳(メタデータ) (2021-06-07T11:22:39Z) - Inflating Topic Relevance with Ideology: A Case Study of Political
Ideology Bias in Social Topic Detection Models [16.279854003220418]
トレーニングデータにおける政治的イデオロギーバイアスの影響について検討する。
私たちの研究は、人間の選択した入力からバイアスを伝達する、大規模で複雑なモデルの受容性を強調します。
偏見を緩和する手段として,政治的イデオロギーに不変なテキスト表現の学習を提案する。
論文 参考訳(メタデータ) (2020-11-29T05:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。