Fugu-MT 論文翻訳(概要): Protected group bias and stereotypes in Large Language Models

論文の概要: Protected group bias and stereotypes in Large Language Models

arxiv url: http://arxiv.org/abs/2403.14727v1
Date: Thu, 21 Mar 2024 00:21:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 21:21:55.264444
Title: Protected group bias and stereotypes in Large Language Models
Title（参考訳）: 大規模言語モデルにおける保護群バイアスとステレオタイプ
Authors: Hadas Kotek, David Q. Sun, Zidi Xiu, Margit Bowler, Christopher Klein,
Abstract要約: 本稿では,倫理と公正の領域におけるLarge Language Models(LLM)の振る舞いについて考察する。マイノリティ化されたグループに偏見はありますが、特に性別やセクシュアリティの領域では、西洋の偏見も見られます。
参考スコア（独自算出の注目度）: 2.1122940074160357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As modern Large Language Models (LLMs) shatter many state-of-the-art benchmarks in a variety of domains, this paper investigates their behavior in the domains of ethics and fairness, focusing on protected group bias. We conduct a two-part study: first, we solicit sentence continuations describing the occupations of individuals from different protected groups, including gender, sexuality, religion, and race. Second, we have the model generate stories about individuals who hold different types of occupations. We collect >10k sentence completions made by a publicly available LLM, which we subject to human annotation. We find bias across minoritized groups, but in particular in the domains of gender and sexuality, as well as Western bias, in model generations. The model not only reflects societal biases, but appears to amplify them. The model is additionally overly cautious in replies to queries relating to minoritized groups, providing responses that strongly emphasize diversity and equity to an extent that other group characteristics are overshadowed. This suggests that artificially constraining potentially harmful outputs may itself lead to harm, and should be applied in a careful and controlled manner.
Abstract（参考訳）: 現代大規模言語モデル (LLM) が様々な領域で多くの最先端のベンチマークを破り、倫理と公正の領域におけるそれらの振る舞いを、保護された集団バイアスに焦点をあてて調査する。まず、ジェンダー、セクシュアリティ、宗教、人種など、異なる保護されたグループからの個人の職業を記述した文の継続を要請する。第2に、異なるタイプの職業を持つ個人について、モデルが物語を生成する。一般に公開されているLCMで作成した10k以上の文の完成度を収集し,人間のアノテーションを付与する。マイノリティ化されたグループ間で偏見が見られますが、特にモデル世代では、性別やセクシュアリティの領域や西洋の偏見が見られます。このモデルは社会的バイアスを反映するだけでなく、それらを増幅するように見える。このモデルは、マイノリティ化されたグループに関するクエリに対する応答に過度に慎重であり、他のグループの特性が過度に隠されている程度に多様性と株式を強く強調する応答を提供する。これは、潜在的に有害な出力を人為的に制限することは、それ自体に害をもたらす可能性があり、慎重に制御された方法で適用されるべきであることを示している。

関連論文リスト

Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。 MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。 LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文参考訳（メタデータ） (2025-06-12T08:47:40Z)
The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。 DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文参考訳（メタデータ） (2024-11-06T06:50:50Z)
Persona Setting Pitfall: Persistent Outgroup Biases in Large Language Models Arising from Social Identity Adoption [10.35915254696156]
その結果,外集団偏見は内集団傾向と同じくらい強く現れることがわかった。我々の研究結果は、より公平でバランスの取れた言語モデルを開発する可能性を浮き彫りにした。
論文参考訳（メタデータ） (2024-09-05T18:08:47Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。既存のLVLMでは男女差が広くみられた。
論文参考訳（メタデータ） (2024-06-30T05:55:15Z)
White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。 LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。 LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文参考訳（メタデータ） (2024-04-16T12:27:54Z)
Evaluating Large Language Models through Gender and Racial Stereotypes [0.0]
質比較研究を行い、性別と人種の2種類の偏見を前提として、言語モデルを評価する枠組みを確立する。より古いモデルに比べて、新しいモデルでは男女の偏見が大幅に減少したが、人種の偏見は依然として存在する。
論文参考訳（メタデータ） (2023-11-24T18:41:16Z)
On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T19:01:13Z)
Fairness in AI Systems: Mitigating gender bias from language-vision models [0.913755431537592]
既存のデータセットにおける性別バイアスの影響について検討する。本稿では,キャプションに基づく言語視覚モデルにおけるその影響を緩和する手法を提案する。
論文参考訳（メタデータ） (2023-05-03T04:33:44Z)
MultiModal Bias: Introducing a Framework for Stereotypical Bias Assessment beyond Gender and Race in Vision Language Models [40.12132844347926]
MMBiasと呼ばれる視覚的およびテキスト的バイアスベンチマークを提供し、約3,800の画像と14のサブグループをカバーするフレーズからなる。このデータセットを用いて、CLIP、ALBEF、VLTを含むいくつかの著名な自己監督型マルチモーダルモデルにおけるバイアスを評価する。バイアスを緩和するための後処理ステップとして適用可能な,大規模な事前学習モデルに特化して設計されたデバイアス処理手法を提案する。
論文参考訳（メタデータ） (2023-03-16T17:36:37Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)
How True is GPT-2? An Empirical Analysis of Intersectional Occupational Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文参考訳（メタデータ） (2021-02-08T11:10:27Z)
CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models [30.582132471411263]
Crowd Stereotype Pairsベンチマーク(CrowS-Pairs)を紹介する。 CrowS-Pairsには1508の例があり、人種、宗教、年齢など9種類の偏見を扱うステレオタイプをカバーしている。その結果, CrowS-Pairs の各カテゴリーにおいて, 広く使われている3つの文のすべてが, 実質的にステレオタイプを好んでいることがわかった。
論文参考訳（メタデータ） (2020-09-30T22:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。