論文の概要: Exposing Bias in Online Communities through Large-Scale Language Models
- arxiv url: http://arxiv.org/abs/2306.02294v1
- Date: Sun, 4 Jun 2023 08:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:47:49.751328
- Title: Exposing Bias in Online Communities through Large-Scale Language Models
- Title(参考訳): 大規模言語モデルによるオンラインコミュニティのバイアスの顕在化
- Authors: Celine Wald and Lukas Pfahler
- Abstract要約: この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Progress in natural language generation research has been shaped by the
ever-growing size of language models. While large language models pre-trained
on web data can generate human-sounding text, they also reproduce social biases
and contribute to the propagation of harmful stereotypes. This work utilises
the flaw of bias in language models to explore the biases of six different
online communities. In order to get an insight into the communities'
viewpoints, we fine-tune GPT-Neo 1.3B with six social media datasets. The bias
of the resulting models is evaluated by prompting the models with different
demographics and comparing the sentiment and toxicity values of these
generations. Together, these methods reveal that bias differs in type and
intensity for the various models. This work not only affirms how easily bias is
absorbed from training data but also presents a scalable method to identify and
compare the bias of different datasets or communities. Additionally, the
examples generated for this work demonstrate the limitations of using automated
sentiment and toxicity classifiers in bias research.
- Abstract(参考訳): 自然言語生成研究の進展は、言語モデルのサイズがますます大きくなってきています。
ウェブデータで事前学習された大規模言語モデルは、人間に響くテキストを生成することができるが、社会的バイアスを再現し、有害なステレオタイプの伝播にも寄与する。
この研究は、言語モデルにおけるバイアスの欠陥を利用して、6つの異なるオンラインコミュニティのバイアスを探索する。
コミュニティの視点を把握するため、6つのソーシャルメディアデータセットでgpt-neo 1.3bを微調整した。
得られたモデルのバイアスは、異なる人口動態を持つモデルに促し、これらの世代の感情と毒性値を比較することによって評価される。
これらの手法は、様々なモデルに対して、型と強度のバイアスが異なることを示す。
この作業は、トレーニングデータからバイアスがどれだけ簡単に吸収されるかを確認するだけでなく、異なるデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
さらに,本研究で得られた例は,バイアス研究における自動感情分析と毒性分類器の使用の限界を示すものである。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - Random Silicon Sampling: Simulating Human Sub-Population Opinion Using a
Large Language Model Based on Group-Level Demographic Information [15.435605802794408]
大規模言語モデルは、人口統計情報に関連する社会的バイアスを示す。
人口サブグループの意見をエミュレートする「ランダムシリコンサンプリング」を提案する。
言語モデルは、実際のアメリカの世論調査と非常によく似た応答分布を生成できる。
論文 参考訳(メタデータ) (2024-02-28T08:09:14Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Generative Language Models Exhibit Social Identity Biases [17.307292780517653]
56大言語モデルにおいて,内集団の連帯性と外集団の敵意,基本的社会的アイデンティティバイアスが存在するか否かを検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、明らかな非群陽性および非群陰性な関連を示す。
現代の言語モデルは,人間と同等の社会的アイデンティティバイアスを示すことが示唆された。
論文 参考訳(メタデータ) (2023-10-24T13:17:40Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。