論文の概要: Diagnosing and Debiasing Corpus-Based Political Bias and Insults in GPT2
- arxiv url: http://arxiv.org/abs/2311.10266v1
- Date: Fri, 17 Nov 2023 01:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 15:15:16.876306
- Title: Diagnosing and Debiasing Corpus-Based Political Bias and Insults in GPT2
- Title(参考訳): gpt2におけるコーパスに基づく政治的偏見と侮辱の診断と抑止
- Authors: Ambri Ma, Arnav Kumar, Brett Zeligson
- Abstract要約: 大規模な言語モデル (LLMs) をインターネットから流出した未フィルタリングコーパスでトレーニングすることは、一般的で有利なプラクティスである。
近年の研究では、生成事前学習型トランスフォーマー(GPT)言語モデルが、自身のバイアスを認識し、生成されたコンテンツの毒性を検出することが示されている。
本研究は、侮辱と政治的偏見の2つの追加的なバイアスを緩和する診断・偏見的アプローチの有効性について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training of large language models (LLMs) on extensive, unfiltered corpora
sourced from the internet is a common and advantageous practice. Consequently,
LLMs have learned and inadvertently reproduced various types of biases,
including violent, offensive, and toxic language. However, recent research
shows that generative pretrained transformer (GPT) language models can
recognize their own biases and detect toxicity in generated content, a process
referred to as self-diagnosis. In response, researchers have developed a
decoding algorithm that allows LLMs to self-debias, or reduce their likelihood
of generating harmful text. This study investigates the efficacy of the
diagnosing-debiasing approach in mitigating two additional types of biases:
insults and political bias. These biases are often used interchangeably in
discourse, despite exhibiting potentially dissimilar semantic and syntactic
properties. We aim to contribute to the ongoing effort of investigating the
ethical and social implications of human-AI interaction.
- Abstract(参考訳): 大規模な言語モデル (LLMs) のトレーニングは、インターネットから流出した広範囲でフィルタされていないコーパスで行われている。
その結果、LSMは暴力的、攻撃的、有害な言語を含む様々な種類のバイアスを学習し、不注意に再現した。
しかし、近年の研究では、生成前訓練トランスフォーマー(gpt)言語モデルが、自己のバイアスを認識し、生成したコンテンツの毒性を検出できることが示されている。
これに対し、研究者はLSMが自己退化を許容する復号アルゴリズムを開発し、有害なテキストを生成する可能性を減らす。
本研究は、侮辱と政治的偏見の2つの追加的なバイアスを緩和する診断・偏見的アプローチの有効性について検討した。
これらのバイアスは、潜在的に異なる意味的および構文的性質を示すにもかかわらず、会話において交換的に使用されることが多い。
我々は,人間とAIの相互作用の倫理的・社会的含意を調査するための継続的な取り組みに貢献することを目的とする。
関連論文リスト
- A survey of recent methods for addressing AI fairness and bias in
biomedicine [48.46929081146017]
人工知能システムは、人種や性別に基づくような社会的不平等を永続するか、偏見を示すことができる。
バイオメディカル自然言語処理 (NLP) やコンピュータビジョン (CV) の分野での様々な脱バイアス法に関する最近の論文を調査した。
我々は,2018年1月から2023年12月にかけて,複数のキーワードの組み合わせを用いて,PubMed,ACMデジタルライブラリ,IEEE Xploreに関する文献検索を行った。
バイオメディシンに応用可能な一般領域からの他の方法について検討し, バイアスに対処し, 公平性を向上する方法について検討した。
論文 参考訳(メタデータ) (2024-02-13T06:38:46Z) - Sociodemographic Bias in Language Models: A Survey and Forward Path [8.01539480296785]
我々は,既存の文献を,バイアスの種類,偏見の定量化,偏見の手法の3つの分野に体系的に分類する。
バイアス研究における現在の傾向、限界、および潜在的将来方向を特定します。
我々は、LMバイアスに関する作業と潜在的な害の理解を組み合わせるために、学際的アプローチを使うことを推奨する。
論文 参考訳(メタデータ) (2023-06-13T22:07:54Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Towards an Enhanced Understanding of Bias in Pre-trained Neural Language
Models: A Survey with Special Emphasis on Affective Bias [2.6304695993930594]
本稿では,大規模な事前学習言語モデルにおけるバイアスの理解,それらの発生ステージの分析,およびこれらのバイアスを定量化し緩和する様々な方法を提案する。
ビジネス,医療,教育などの実世界のシステムにおいて,テキストによる情緒的コンピューティングに基づく下流作業の幅広い適用性を考慮すると,感情(感情)の文脈における偏見(感情)、すなわち感情的バイアス(Affective Bias)の探究に特に重点を置いている。
本稿では,将来の研究を支援する各種バイアス評価コーパスの概要と,事前学習言語モデルにおけるバイアス研究の課題について述べる。
論文 参考訳(メタデータ) (2022-04-21T18:51:19Z) - Identification of Bias Against People with Disabilities in Sentiment
Analysis and Toxicity Detection Models [0.5758109624133713]
本稿では,障害のバイアスに対する感情分析モデルを探索するための1,126文のコーパスであるBITS(Bias Identification Test in Sentiments)を提案する。
その結果, 障害に言及した文に対して, いずれも負のバイアスが強いことが示唆された。
論文 参考訳(メタデータ) (2021-11-25T21:44:18Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。