論文の概要: A Taxonomy of Stereotype Content in Large Language Models
- arxiv url: http://arxiv.org/abs/2408.00162v1
- Date: Wed, 31 Jul 2024 21:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 22:16:07.675097
- Title: A Taxonomy of Stereotype Content in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるステレオタイプの分類
- Authors: Gandalf Nicolas, Aylin Caliskan,
- Abstract要約: 本研究では,現代大言語モデル(LLM)におけるステレオタイプ内容の分類について紹介する。
LLMステレオタイプアソシエーションの90%を占める14のステレオタイプ次元(モラル、能力、健康、信条、感情など)を同定した。
以上の結果から,LLMには高次元のヒトステレオタイプが反映されていることが示唆された。
- 参考スコア(独自算出の注目度): 4.4212441764241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces a taxonomy of stereotype content in contemporary large language models (LLMs). We prompt ChatGPT 3.5, Llama 3, and Mixtral 8x7B, three powerful and widely used LLMs, for the characteristics associated with 87 social categories (e.g., gender, race, occupations). We identify 14 stereotype dimensions (e.g., Morality, Ability, Health, Beliefs, Emotions), accounting for ~90% of LLM stereotype associations. Warmth and Competence facets were the most frequent content, but all other dimensions were significantly prevalent. Stereotypes were more positive in LLMs (vs. humans), but there was significant variability across categories and dimensions. Finally, the taxonomy predicted the LLMs' internal evaluations of social categories (e.g., how positively/negatively the categories were represented), supporting the relevance of a multidimensional taxonomy for characterizing LLM stereotypes. Our findings suggest that high-dimensional human stereotypes are reflected in LLMs and must be considered in AI auditing and debiasing to minimize unidentified harms from reliance in low-dimensional views of bias in LLMs.
- Abstract(参考訳): 本研究では,現代大言語モデル (LLM) におけるステレオタイプ内容の分類について紹介する。
87の社会的カテゴリー(例えば、性別、人種、職業)に関連する特徴について、ChatGPT 3.5、Llama 3、Mixtral 8x7Bの3つの強力なLLMを誘導する。
LLMステレオタイプ関係の約90%を占める14のステレオタイプ次元(例えば、モラル、能力、健康、信念、感情)を同定した。
ウォームスとコンピテンス・フェイスは最も頻繁な内容であったが、他の次元は全て顕著に普及した。
ステレオタイプは LLM ではより肯定的であったが, カテゴリーや次元に有意な変動が認められた。
最後に, LLMの社会的カテゴリーに対する内的評価(例えば, そのカテゴリーがいかに肯定的/否定的であったか)を予測し, LLMステレオタイプを特徴付けるための多次元分類の関連性を支持した。
以上の結果から,LLMには高次元のヒトステレオタイプが反映されていることが示唆され,LLMの低次元観に依拠する不特定害を最小化するために,AI監査やデバイアス化において考慮する必要がある。
関連論文リスト
- Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。
我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - "They are uncultured": Unveiling Covert Harms and Social Threats in LLM Generated Conversations [15.535416139394009]
大規模言語モデル(LLM)は現代社会の不可欠な部分として登場した。
実用性にも拘わらず、LLMは体系的バイアスを持続することを示している。
社会科学文献に基礎を置く7つの指標の集合であるCovert Harms and Social Threats(CHAST)を紹介する。
論文 参考訳(メタデータ) (2024-05-08T19:08:45Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Confronting LLMs with Traditional ML: Rethinking the Fairness of Large Language Models in Tabular Classifications [23.963586791210414]
大規模言語モデル (LLM) は, 学習データから社会的偏見を継承する傾向にあり, 分類作業における公平性に大きな影響を及ぼすことを示した。
この観察は、社会的バイアスがLSM自体に固有のものであり、事前学習されたコーパスから継承されていることを強調している。
論文 参考訳(メタデータ) (2023-10-23T06:31:28Z) - StereoMap: Quantifying the Awareness of Human-like Stereotypes in Large
Language Models [11.218531873222398]
大規模言語モデル(LLM)は、トレーニングデータに存在する有害な関連を符号化し、永続する。
本稿では,人口集団が社会によってどのように見られているかについての認識を得るために,StereoMapという理論的基盤を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:22:30Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models [33.157279170602784]
大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。
GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。
交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
論文 参考訳(メタデータ) (2023-05-29T16:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。